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Ragazzini 教 育 奖 。 其 研究 领域 涉及 优 
化 、 控 制 、 大 规模 计算 、 数 据 通信 网 络 
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Nonlinear Programming 等 十 余部 教材 和 
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译 者 简介 


郑 忠 国 ”北京 大 学 数学 科学 学 院 教授 、 博 士 生 导 师 , 1965 年 北京 大 学 研究 生 毕 业 
长 期 从 事 数理 统计 的 教学 和 科研 工作 , 研究 方向 是 非 参数 统计 、 可 靠 性 统计 和 统计 
计算 , 发 表 论 文 近 百 篇 . 主持 完成 国家 科研 项 目 “ 不 完全 数据 统计 理论 及 其 应 用 ”， 
教育 部 博士 点 基金 项 目 “ 应 用 统计 方法 研究 ”和 “工业 与 医学 中 的 应 用 统计 研究 ” 
等 . 研究 项 目 “随机 加 权 法 ” 获 国 家 教委 科技 进步 二 等 奖 . 出 版 的 教材 有 《高 等 统 
计 学 》《 概 率 与 统计 》( 北 京 大 学 出 版 社 ) 等 


童 行 伟 ”北京 师范 大 学 数学 科学 学 院 副 教授 、 硕士 生 时 师 , 2003 年 获得 北京 大 学 数 
学 科学 学 院 博 士 学 位 . 曾 在 密苏里 大 学 哥伦比亚 分 校 做 博士 后 研究 , 多 次 访问 香港 
各 大 学 和 新 加 坡 国立 大 学 . 主要 从 事 生物 统计 、 金 融 统计 的 教学 和 科研 工作 , 研究 
方向 是 生存 分 析 和 医学 统计 . 


译 者 序 


概率 论 是 研究 自然 界 和 人 类 社会 中 的 随机 现象 数量 规律 的 数学 分 支 ， 概率 论 

的 理论 和 方法 与 数学 的 其 他 分 支 、 自 然 科 学 、 工程、 人 文 及 社会 科学 各 领域 相互 交 
叉 渗透 , 已 经 成 为 这 些 学 科 中 的 基本 方法 . 概率 论 (或 概率 统计 ) 和 高 等 数学 一 样 ， 
已 经 成 为 我 国 高 等 学 校 各 专业 普遍 设立 的 一 门 基础 课 . 
Dimitri P. Bertsekas 和 John N. Tsitsiklis 编写 的 这 本 《概率 导论 》 独 具 特 色 . 
作者 用 流畅 的 笔调 , 阐述 了 概率 论 的 基本 原理 和 方法 , 同时 用 大 量 丰 富 的 例子 说 明 
概率 论 的 应 用 领域 的 广泛 性 . 本 书 在 内 容 上 具有 一 些 鲜明 的 特点 . 首先 教材 的 内 容 
富 , 除了 系统 地 介绍 概率 论 基本 原理 外 , 还 包含 了 随机 过 程 和 统计 学 的 内 容 . 随 
机 过 程 部 分 涉及 伯 努 利和 泊 松 过 程 、 马 尔 可 夫 过 程 等 内 容 , 统计 学 涉及 贝 叶 斯 统计 
和 经 典 统计 的 主要 方法 . 本 书 的 内 容 可 以 提供 两 门 具有 不 同 特点 的 一 学 期 课程 的 
材料 , 一 门 是 概率 论 与 随机 过 程 , 另 一 门 是 概率 论 与 统计 推断 . 任课 教员 可 以 从 本 
书 选 取 相 关内 容 组 成 相应 课程 . 本 书 的 另 一 个 特点 是 它 的 广泛 适应 性 和 理论 的 完 
整 性 . 初学 者 通过 系统 学 习 , 可 以 掌握 概率 论 和 统计 学 的 基本 原理 ; 追求 数学 严密 
性 的 学 生 , 也 可 从 本 书 的 注解 和 习题 解答 中 学 习 到 概率 统计 的 严格 理论 , 了 解 理论 
的 完整 性 和 逻辑 的 严密 性 . 
译 者 曾 与 本 书 第 一 作者 有 过 当面 交流 的 机 会 . 作者 对 于 中 国 不 断 发 展 的 教育 
科学 事业 很 感 兴趣 , 乐于 看 到 概率 统计 在 中 国教 育 领域 中 的 地 位 日 益 提 高 , 乐于 将 
本 书 介绍 给 中 国 读者 . 本 书 是 麻 省 理工 学 院 的 基础 课 教 材 , 是 在 多 年 教学 的 基础 上 
写成 的 . 作为 世界 著名 高 校 , 他 们 的 经 验 值得 我 们 学 习 , 我 们 希望 本 教材 的 中 文 版 
能 够 对 提高 我 国 概率 统计 教育 水 平 起 到 积极 的 作用 . 
由 于 译 者 的 学 识 和 中 英文 水 平 有 限 , 译文 难免 有 不 妥 之 处 , 欢迎 广大 读者 批评 


指正 . 


第 2 版 前 言 


本 书 对 第 1 版 进行 了 重大 改动 : 对 原 有 材料 的 编排 做 了 变动 , 增加 了 新 的 材料 ， 
页 数 也 增加 了 25 %. 主要 的 改动 如 下 

(a) 统计 推断 方面 增加 了 两 章 内 容 : 一 章 是 贝 叶 斯 统计 ; 一 章 是 经 典 统计 推断 
这 两 章 的 主要 内 容 是 介绍 基本 概念 , 并 通过 例子 加 深 对 方法 的 理解 
(b) 重新 安排 组 织 了 第 3、 第 4 两 章 的 内 容 , 一 方面 是 为 了 增加 新 的 内 容 , 另 一 
方面 是 为 了 表达 的 流畅 . 第 1 版 中 的 4.7 节 (二 元 正 态 分 布 ) 已 经 删 去 , 但 是 在 本 书 
的 网 页 上 还 保留 着 . 

(c) 增加 了 一 些 例子 和 习题 . 

新 版 的 主要 目的 是 为 教师 提供 更 多 的 材料 以 供 他 们 选材 , 特别 是 提供 了 统计 推 
断 引 论 的 题材 . 注意 本 书 第 6~7 章 和 第 8~9 章 在 内 容 上 是 相互 独立 的 . 另外 , 第 
5~7 章 的 内 容 是 不 依赖 第 4 章 的 , 第 8~9 章 只 需要 知道 4.2~4.3 节 的 内 容 . 因此 ， 
利用 本 书 , 可 以 提供 下 列 的 课程 . 

(a) 概率 论 与 统计 推断 引 论 : 第 1~3 章 , 4.2~4.3 节 , 第 5 章 , 第 8~9 章 

(b) 概率 论 与 随机 过 程 引 论 : 第 1~3 章 , 第 5~7 章 , 加 上 第 4 章 少 数 几 节 . 

我 们 要 对 我 们 的 同行 表示 感谢 . 他们 对 第 1 版 的 内 容 提 出 了 宝贵 的 建议 , 同 
时 对 新 增 材料 的 组 织 提 供 了 帮助 . 特别 是 Ed Cofftman、Munther Dahleh、Vivek 
Goyal、 Anant Sahai、 David Tse、George Verghese、Alan Willsky、John Wyatt 等 . 
最 后 , 我 们 要 感谢 Mengdi Wang, 她 为 新 增 的 两 章 提 供 了 习题 和 图 表 . 
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Dimitri P. Bertsekas, dimitribQmit.edu 
John N. Tsitsiklis, jntQmit.edu 
2008 年 6 月 于 麻 省 剑桥 


蚂 
了 中 


概率 是 用 计算 概括 的 常识 . 
一 一 拉 普 拉 斯 


本 书 是 我 们 在 MIT 开设 的 一 门 概率 论 入 门 课程 “概率 系统 分 析 ” 


的 基础 上 写 


选择 这 门 课程 的 学 生来 自 全 校 各 个 科 系 , 他 们 背景 各 异 , 且 兴 趣 广泛 , 既 有 刚 
入 学 的 本 科 一 年 级 新 生 也 有 研究 生 , 既 有 学 工科 的 也 有 学 管理 的 . 为 此 , 在 教学 上 


我 们 一 直 力 求 表达 简洁 而 又 不 失 分 析 推 理 的 严格 . 我 们 教学 的 主要 目的 是 培养 学 生 


构造 和 分 析 概 率 模型 的 能 力 , 希望 学 生 既 具备 直观 理解 力 又 注重 数学 的 准确 性 . 


根据 这 种 精神 , 概率 论 模 型 中 某 些 很 严格 的 数学 推导 被 简化 处 理 了 , 或 者 只 是 


进行 了 直观 的 解释 , 免得 复杂 的 证 明 妨 碍 了 学 生 对 概率 论 本 质 的 理解 


同时 , 有 些 


分 析 留 在 每 章 最 后 的 理论 习题 部 分 , 它们 用 到 高 等 微 积分 知识 . 此 外 , 为 了 满足 某 


些 专 业 读 者 的 需要 , 我 们 将 某 些 推理 过 程 中 的 数学 技巧 展示 在 注解 中 . 


本 书包 含 了 概率 论 的 基础 理论 部 分 (概率 模型 、 离 散 随机 变量 和 连续 随机 变 


努 利 、 泊 松 和 马尔 可 夫 过 程 . 


量 、 多 元 随机 变量 以 及 极限 定理 ), 这 些 都 是 概率 论 入 门 教材 的 主要 内 容 . 在 第 4~6 
章 , 也 包含 了 一 些 较 高 级 的 内 容 , 教师 在 讲授 的 过 程 中 可 以 选择 部 分 内 容 , 以 配合 
课程 大 纲 的 具体 需求 . 其 中 第 4 章 介 绍 了 和 矩 母 函数 、 条 件 概 率 的 现代 定义 、 独立 随 
机 变量 的 和 、 最 小 二 乘 估计 、 二 维 正 态 分 布 等 内 容 ; 第 5~6 章 较为 详细 地 介绍 了 伯 


我 们 在 MIT 开设 的 (一 学 期 ) 课程 中 , 讲授 了 第 1~7 章 的 几乎 全 部 内 容 , 只 是 


略 去 了 二 维 正 态 分 布 (4.7 节 ) 和 连续 时 间 马 尔 可 夫 链 (6.5 节 ) 两 部 分 . 


然而 , 也 可 


以 作 如 下 选择 : 略 去 课本 中 关于 随机 过 程 的 全 部 内 容 , 这 样 可 使 任课 教师 集中 精力 


介绍 概率 论 的 基本 概念 , 或 者 增加 一 些 感 兴趣 的 其 他 材料 . 


本 书 的 主要 省 略 之 处 是 缺乏 对 统计 学 的 全 面 介 绍 . 我 们 引入 了 离散 和 连续 情 


形 下 的 贝 叶 斯 准则 和 最 小 二 乘 估计 , 引入 贝 叶 斯 统计 理论 , 但 并 不 涉及 参数 估计 和 


非 贝 叶 斯 假设 检验 . 
本 书 的 习题 可 以 分 成 三 类 . 


(a) 理 论 习 题 : 理论 习题 (用 * 标明 ) 是 教材 的 重要 组 成 部 分 . 具有 数学 背景 的 


学 生 会 发 现 这 部 分 内 容 是 由 课文 自然 拓展 而 来 . 我 们 同时 给 出 了 这 部 


分 习题 的 解 


答 . 但 是 , 善于 思考 的 读者 会 发 现 大 部 分 (特别 是 前 儿童 的 ) 习题 都 能 自 


三 
党 


己 独 立地 做 


(b) 课程 习题 : 除 理论 习题 外 , 书 中 还 包含 了 难度 各 异 的 其 他 习题 . 这 些 习题 是 
在 MIT 的 讨论 班 上 经 常 研究 的 题目 , 也 是 MIT 的 学 生 学 习 概率 论 的 主要 方法 之 
一 . 我 们 希望 学 生 首 先 独 立地 做 习题 , 然后 参考 标准 答案 进行 核对 , 这 样 可 以 提高 他 
们 的 学 习 能 力 . 答案 公布 在 教材 的 网 页 上 : http://www.athenasc.com/probbook. 
html. 

(c) 补充 习题 有 很 多 补充 习题 并 没有 印 在 书 上 , 但 是 在 本 书 的 网 页 上 可 以 查 
到 ( 且 越 来 越 多 ). 其 中 许多 习题 是 MIT 学 生 的 家 庭 作业 和 考试 题目 . 我 们 希望 采 
用 本 教材 的 教师 可 以 同样 地 利用 它们 . 这 些 题目 放 在 网 上 是 公开 的 , 但 是 题目 的 答 
案 是 不 公开 的 . 采用 本 教材 的 教师 可 以 联系 作者 得 到 这 些 答案 . 

我 们 要 感谢 许多 为 本 书 作出 贡献 的 人 . 当 我 们 开始 在 MIT 接手 这 门 概率 论 课 
程 的 教学 任务 时 , 就 开始 了 写 书 的 计划 . 我 们 的 同事 Al Drake 教 这 门 课 已 经 儿 十 
年 了 . 他 的 课程 组 织 经 历 了 时 间 的 考验 , 其 经 典 教材 对 各 个 题材 均 有 生动 的 描述 ， 
还 有 大 量 讨论 班 内 容 和 家 庭 作 业 等 丰富 的 材料 , 我 们 十 分 庆 季 自己 的 工作 有 这 样 高 
的 起 点 . 特别 感谢 Al Drake 给 我 们 创造 了 如 此 有 利 的 起 始 条 件 . 

我 们 也 要 感谢 其 他 院 校 的 几 位 同事 , 他 们 有 的 利用 本 书 的 手稿 进行 教学 , 有 的 
阅读 过 手稿 ,并 对 本 书 的 改进 提供 了 反馈 ， 我 们 要 特别 感谢 Ibrahim Abou Fay- 
cal、 Gustavo de Veciana、 Eugene Feinberg、 Bob Gray、Muriel Médard、 Jason Pa- 


pastavrou、 Ilya Pollak、 David Tse、Terry Wagner 等 . 

还 有 MIT 的 助教 们 , 他 们 对 各 阶段 的 书稿 进行 了 认真 的 校 核 , 并 丰富 和 完善 
了 习题 和 解答 . 通过 他 们 与 学 生 的 直接 交流 , 才 使 得 本 教材 能 够 适应 学 生 的 学 习 水 

本 书 能 够 为 MIT 的 数 千 学 生 在 其 学 业 生 涯 之 初 提供 服务 , 使 我 们 感到 十 分 欣 
感 . 在 本 书 的 成 书 过 程 中 , 他 们 热心 反馈 书本 中 的 问题 和 学 习 心 得 . 在 此 感谢 他 们 
的 反馈 与 耐心 . 

最 后 , 我 们 还 要 感谢 我 们 的 家 人 在 这 个 漫长 的 成 书 过 程 中 对 我 们 的 支持 . 


Dimitri P. Bertsekas, dimitribQmit.edu 
John N. Tsitsiklis, jntQmit.edu 
2002 年 5 月 于 麻 省 剑桥 
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第 1 章 ”样本 空间 与 概率 


“概率 ”是 一 个 非常 有 用 的 概念 , 它 可 以 从 不 同 的 层面 来 加 以 解释 . 先 看 下 面 


一 幅 对 话 场 景 . 


护士 : 


一 个 病人 被 送 进 医院 , 并 施 以 一 种 急救 的 药 . 病人 家 属 为 了 了 解 药 的 疗效 ， 
询问 了 当班 的 护士 . 下 面 是 他 们 之 间 的 一 段 对 话 . 


护士 小 姐 , 请 问 这 种 药 有 效 的 概率 是 多 少 ? 
我 希望 这 种 药 是 有 效 的 , 明天 就 会 见 分 晓 . 
是 的 , 但 是 我 想 知道 这 种 药 有 效 的 概率 . 


护士 : 


护士 (有 些 不 耐烦 ): 我 已 经 告诉 你 了 , 每 个 病人 的 情况 是 不 一 样 的 这 种 
药 , 对 某 些 病人 是 有 效 的 , 对 另 一 些 病人 是 无 效 的 . 

家 属 (继续 坚持 ): 现在 请 告诉 我 , 如 果 必 须 打 赌 的 话 , 你 会 押 哪 一 注 , 这 种 
药 是 有 效 还 是 无 效 ? 

护士 (有些 惊奇 ): 那 我 愿意 打赌 , 对 于 这 位 病人 , 这 种 药 是 有 效 的 . 

家 属 (多 少 松 了 一 口气 ): 好 吧 ! 我 再 问 你 , 你 是 否 愿 意 如 此 押 注 : 若 这 药 无 
效 , 你 输 掉 2 元 钱 ; 若 这 药 有 效 , 你 赢 1 元 钱 ? 

护士 (有 些 恼怒 ): 多 么 荒 廖 的 想法 ! 你 是 在 浪费 我 的 时 间 . 


每 个 病人 的 病情 是 不 一 样 的 , 看 情况 发 展 吧 . 
这 么 说 吧 , 在 100 宗 类 似 的 病例 中 , 你 认为 有 多 少 宗 是 有 效 的 ? 


在 这 组 对 话 中 , 病人 家 属 和 希望 用 概率 的 概念 同 护士 讨论 药 的 疗效 这 种 具有 不 确 
定性 的 事件 . 但 是 护士 的 第 一 反应 是 对 概率 这 个 概念 的 不 认可 , 或 不 理解 , 而 家 属 
试图 将 概率 的 概念 解释 得 更 具体 一 些 . 他 首先 试图 将 概率 解释 成 偶然 事件 在 多 次 


重复 试验 中 出 现 的 频率 , 这 是 最 通常 的 解释 . 例如 ， 我 们 说 一 枚 两 面 对 称 的 硬币 ， 在 
抛 撕 试验 中 以 50% 的 概率 出 现 正面 , 这 么 说 实际 上 是 指 在 多 次 重复 抛掷 人 硬币 时 , 出 


现 正 面向 上 的 次 数 约 占 一 半 . 但 是 护士 似乎 不 大 愿意 接受 家 属 的 这 种 想法 , 护士 的 
想法 不 是 完全 没有 道理 . 如 果 这 种 药 是 第 一 次 在 医院 里 使 用 , 或 护士 从 没有 过 这 方 
面 的 经 验 , 那 何 从 谈 起 治愈 的 频率 呢 ? 

在 许多 涉及 不 确定 性 的 事例 中 , 用 频率 解释 是 适宜 的 , 然而 , 也 有 一 些 事例 不 


宜 用 频率 解释 . 比如 , 有 一 个 学 者 以 90% 的 把 握 断 言 《 伊 里 亚 特 》 和 《奥德赛 》 是 
由 同一 作者 创作 的 . 由 于 他 所 讨论 的 是 不 可 重复 的 一 次 性 事件 , 这 样 的 结论 只 是 提 


供 一 些 主 观看 法 , 而 与 频率 无 关 . 所 谓 概 率 为 90% 的 把 握 只 是 学 者 的 主观 信念 . 或 
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许 有 人 认为 主观 信念 是 不 值得 研究 的 , 至 少 从 数学 或 科学 的 观点 来 看 是 如 此 . 但 是 


在 实际 生活 中 , 人 们 面 对 不 确定 性 的 时 候 , 经 常 不 得 不 作出 抉择 . 


为 了 作出 正确 的 


或 至 少 保持 一 致 的 抉择 , 科学 和 系统 地 利用 他 们 的 主观 信念 是 一 个 先决 条 件 . 


事实 上 , 一 个 理智 的 选择 和 行动 揭示 了 许多 内 在 的 主观 概率 ， 


然而 在 许多 场合 


中 , 作出 抉择 的 人 自己 也 没有 意识 到 他 们 应 用 了 概率 推理 . 在 前 面 的 对 话 场 景 中 ， 


病人 家 属 以 一 种 隐蔽 的 方式 试图 推断 护士 的 主观 信念 ， 由 于 护士 


如 果 这 位 护士 接受 对 话 最 后 提出 的 赔 率 为 2:1 的 赌注 的 话 , 这 说 明 
念 中 , 这 种 药 有 效 的 概率 至 少 为 2/3. 


率 打 赌 这 种 药 是 有 效 的 , 那么 在 护士 的 主观 概念 中 , 这 种 药 有 效 的 概率 至 少 为 50%. 


愿意 以 1:1 的 赔 


在 护士 的 主观 概 


在 此 我 们 不 去 深究 概率 推理 适用 性 方面 的 哲学 问题 , 而 是 事先 假定 概率 论 在 很 
多 方面 都 具有 实用 价值 , 包括 概率 只 反映 主观 信念 的 情形 . 概率 论 在 科学 、 工 程 、 


医药 、 管 理 等 领域 中 有 许多 成 功 应 用 的 事例 . 这 许多 经 验证 据说 明 
是 一 种 极其 有 用 的 工具 . 
本 书 的 主要 目的 是 发 所 用 概率 模型 描述 不 确定 性 的 艺术 和 提 


概率 论 在 应 用 中 


高 概率 推理 的 能 


力 . 作为 第 一 步 , 本 前 要 把 概率 模型 的 基础 结构 及 基本 性 质 刻画 清楚 . 概率 是 定义 


在 某 些 试验 结果 的 集合 上 的 . 为 此 , 我 们 首先 应 该 对 集合 论 作 一 简 


1.1 集 合 


= =| 


概率 论 大 量 应 用 集合 运算 . 我 们 首先 引进 相关 的 记号 和 术语 . 


介 . 


将 一 些 研究 对 象 放 在 一 起 , 形成 集合 , 而 这 些 对 象 就 称 为 集合 的 元 素 . 设 5 是 
个 集合 ,z 是 5 的 元 素 , 我 们 将 元 素 和 集合 的 这 种 关系 写成 ze 5. 若 z 不 是 3 的 


元 素 , 就 写成 z& 53. 一 个 集合 可 以 没有 元 素 , 这 个 特殊 的 集合 就 称 


将 这 些 元 素 列 在 花 括 弧 中 : 


S = {Zz1,T2, ;re 


可 用 不 同 的 方法 刻画 一 个 集合 . 若 5 包含 有 限 个 元 素 zl zz， 


为 空 集 , 记 作 g. 


; Tn, 我 们 只 需 


例如 , 掷 一 枚 伙 子 以 后 的 所 有 可 能 结果 的 集合 是 {1,2,3,4,5,6}, 抛 一 枚 硬币 的 可 能 


结果 的 集合 是 { 忆 7, 其 中 五 代表 正面 向 上 , 7 代表 反面 向 上 . 
若 3 包含 无 限 多 个 元 素 zi zz,…， 但 它们 可 以 像 正 整 数 那 术 


f 排 成 一 列 , 我 们 


可 写成 
S = { x1,7T2,..}, 


此 时 称 5 为 可 数 无 限 集 . 例如 , 偶数 的 集合 {0,2, 一 2,4, 一 4,…} 是 一 个 可 数 无 限 集 . 


我 们 也 可 以 以 x 具有 某 种 性 质 P 为 条 件 来 刻画 一 个 集合 , 记 
{z| z 满足 性 质 P}. 


作 
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例如 , 偶数 集合 可 写成 {k| /2 是 整数 }. 类 似 地 , 在 实数 区 间 [0,1] 中 的 数 集 可 表示 
成 {z| 0 < xz < 1}. 注意 , 集合 {zl0 < x < 1} 是 一 个 连续 集合 , 它 不 可 能 排 成 一 列 
( 章 后 习题 中 给 出 了 证 明 概要 ). 这 样 的 集合 是 不 可 数 的 集合 . 

车 集合 5 的 所 有 元 素 均 为 集合 工 的 元 素 , 就 称 5 为 了 的 子 集 , 记 作 ScT 或 
TD 5S. 若 ScT 且 Tc 5, 则 两 个 集合 相等 , 记 作 5 =T. 引入 空间 的 概念 是 十 分 
必要 的 . 将 我 们 感 兴趣 的 所 有 元 素 放 在 一 起 , 形成 一 个 集合 , 这 个 集合 称 为 空间 , 记 
作 0. 当 9 确定 以 后 , 我 们 所 讨论 的 集合 5S 都 是 的 子 集 . 
1.1.1 ”集合 运算 

集合 {z emlzg& 5} 称 为 集合 5 相对 于 Q 的 补 集 , 记 作 5°. 注意 9 = 马 
由 属于 5 或 属于 了 的 元 素 组 成 的 集合 称 为 S$ 和 了 的 并 , 记 为 SUT. 既 属于 
5S 又 属于 工 的 元 素 组 成 的 集合 称 为 S 和 了 的 交 , 记 成 $nT. 这 些 集合 可 用 下 列 
公式 表达 : 


SUT={z|ze5 或 zeT), 


SNT={rxlresHzreT}. 


有 时 候 我 们 需要 考虑 儿 个 甚至 无 穷 个 集合 的 并 和 交 的 问题 . 例如 , 如 果 每 一 个 正 整 
数 n 都 确定 一 个 集合 5%, 则 


US = S51U 52…= {z| ze€ 5% 对 某 个 n 成 立 }， 


es 


门 54=51n52.… = {z| ze Sn 对 一 切 n 成 立 }. 
入 未 


(d) 此 处 是 Tc 5, 阴 (e) 5, T,U 互 不 相交 () 5, 了 和 U0 形成 9 的 
影 部 分 是 5° 一 个 分 割 
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两 个 集合 称 为 不 相交 的 , 如 果 它 们 的 交集 为 空 集 . 更 一 般 地 , 几 个 集合 称 为 互 
不 相交 的 , 如 果 任 何 两 个 集合 没有 公共 元 素 . 一 组 集合 称 为 集合 5 的 分 割 , 如 果 这 
组 集合 中 的 集合 互 不 相交 , 并 且 它们 的 并 为 5. 

设 x 和 y 为 两 个 研究 对 象 , 我 们 用 (x,y) 表示 > 和 y 的 有 序 对 . 我 们 用 及 表 
示 实 数 集合 , 用 R? 表示 实数 对 的 集合 , 即 二 维 平面 , 用 R3 表示 三 维 实数 向 量 的 旨 
合 (三 维 空间 ). 集合 及 其 运算 可 用 维 恩 图 形象 化 表示 , 见 图 1.1. 


1.1.2 ”集合 的 代数 


合 运 算 具 有 若干 性 质 , 这 些 运 算 性 质 可 由 运算 的 定义 直接 证 得 , 举例 如 下 : 
SUT=TUS, SU(TUV)= (SUT)UD, 
SN(TUDW= (SNT)U(SND), SU(TNUV)= (SUT)N(SUD), 

(Soc = 3 SNS°=%, 
SUO = 0， SNQ=5. 


下 面 给 出 的 两 个 公式 就 是 著名 的 德 摩根 定律 : 
(Us) = 门 5， ns = JS. 


现在 证 明 第 一 个 公式 . 设 x € (Un5n)“, 这 说 明 z Unsn, 即 对 一 切 n, xz 4 Sn 因 
而 , 对 每 一 个 n, z 属于 Sn 的 补 集 , 即 x € NwS¢. 这 样 , 我 们 得 到 (US%)* C mS. 
反 过 来 包含 关系 的 证 明 , 只 需 将 我 们 的 论证 从 后 面 往 前 推 即 可 . 而 第 二 个 公式 的 证 


明 完全 类 似 . 


1.2 概率 模型 


概率 模型 是 对 不 确定 现象 的 数学 描述 , 为 了 与 本 节 讨 论 的 基本 框架 保持 一 致 
F 面 列 出 了 它 的 两 个 基本 构成 , 并 用 图 1.2 做 了 形象 六 释 


概率 模型 的 基本 构成 
。 样 本 空间 Q, 这 是 一 个 试验 的 所 有 可 能 结果 的 集合 . 
。 概率 律 , 概率 律 为 试验 结果 的 集合 4( 称 为 事件 ) 确定 一 个 非 负数 P(4) ( 称 
为 事件 4 的 概率 ). 而 这 个 非 负数 刻画 了 我 们 对 事件 4 的 认识 或 所 产生 
的 信念 的 程度 . 稍 后 将 指出 概率 律 必须 满足 的 某 些 性 质 . 
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样本 空间 
(可 能 结果 的 集合 ) 


图 1.2 概率 模型 的 基本 构成 


1.2.1 样本 空间 和 事件 


每 一 个 概率 模型 都 关联 着 一 个 试验 , 这 个 试验 将 产生 一 个 试验 结果 . 该 试验 的 


所 有 可 能 结果 形成 样本 空间 , 用 Q 表示 样本 空间 . 样本 空间 的 子 集 , 即 某 些 试验 结 


果 的 集合 , 称 为 事件 ”一 个 试验 由 什么 组 成 , 并 没有 什么 限制 . 例如 , 可 以 抛掷 一 
次 硬币 , 也 可 以 抛掷 三 次 硬币 , 或 持续 地 、 无 限 次 地 抛 括 硬币 .然而 我 们 所 讨论 的 
概率 模型 的 问题 中 , 只 涉及 一 个 试验 . 所 以 连续 抛掷 三 次 硬币 的 试验 , 只 能 作为 一 


次 试验 , 不 能 认为 是 三 次 试验 . 


样本 空间 可 由 若干 个 试验 结果 组 成 , 也 可 由 无 限 多 个 试验 结果 组 成 . 从 数学 上 
和 概念 上 来 看 , 有 限 样 本 空间 比较 简单 . 实际 应 用 中 , 具有 无 限 多 个 结果 的 样本 空 


间 也 是 很 常见 的 . 例如 , 往 一 个 方形 目标 上 掷 飞 标 , 可 将 每 个 可 能 的 弹 着 点 作为 试 


1.2.2 ”选择 适当 的 样本 空间 


在 确定 样本 空间 的 时 候 , 不 同 的 试验 结果 必须 是 相互 排斥 的 , 这 样 , 在 试验 过 


3” 定 为 一 个 试验 结果 , 同时 又 把 “1 或 4” 也 定义 为 一 个 结果 
么 当 撕 得 1 点 的 时 候 , 就 不 知道 得 到 的 是 什么 结果 了 . 


程 中 只 可 能 产生 唯一 的 一 个 结果 . 例如 , 当 试 验 是 掷 一 枚 仍 子 的 时 候 , 不 能 把 “1 或 


. 如 果 这 样 定 义 了 , 那 


对 同一 个 试验 , 根据 我 们 的 兴趣 可 以 确定 不 同 模型 . 但 是 确定 模型 时 , 我 们 不 


能 遗漏 其 样本 空间 中 的 任何 一 个 结果 . 也 就 是 说 在 试验 过 程 


中 不 管 发 生 什么 情况 ， 


我 们 总 能 够 得 到 样本 空间 中 的 一 个 结果 . 另外 , 在 建立 样本 空间 的 时 候 , 要 有 足够 


的 细节 区 分 我 们 感 兴趣 的 事件 , 同时 要 避免 不 必要 的 烦 开 . 


例 1.1 考虑 两 个 不 同 的 游戏 , 它们 都 涉及 连续 抛掷 10 次 硬币 . 


游戏 1: 每 次 抛 扼 便 币 的 时 候 , 只 要 出 现 正面 向 上 , 我 们 就 赢 1 元 钱 . 


@ 任意 一 个 可 能 结果 的 集合 , 包括 样本 空间 Q 本 身 和 它 的 补 集 如 , 都 可 能 作为 事件 . 当然 , 严格 来 


讲 , 在 一 个 具有 不 可 数 无 限 多 个 试验 结果 的 样本 空间 中 , 有 些 子 集 不 晤 
及 测度 论 的 数学 知识 .但 实际 上 我 们 一 般 不 会 遇 到 这 种 特殊 的 情况 ， 


问题 . 


能 定义 有 意义 的 概率 . 这 涉 
妹 此 我 们 不 必 考 虑 这 种 特殊 


A 
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游戏 2: 每 次 抛掷 便 币 时 , 我 们 都 赢 1 元 钱 , 直到 出 现 第 一 次 正面 向 


一 次 ). 以 后 每 次 抛掷 硬币 时 我 们 赢 2 元 钱 ， 


得 到 正面 后 每 次 抛掷 硬币 所 遍 的 钱 数 比 以 前 每 次 寺 


钱 数 加 倍 . 
在 游戏 1 中 , 我 们 说 
2 中 , 我 们 的 赢 钱 数 不 仅 
样 在 游戏 1 中 , 样本 空间 


向 上 的 时 候 , 以 


的 钱 数 只 与 10 次 抛掷 中 了 


与 : 


FE 四 


出 现 的 次 数 有 关 , 也 与 正 反 面 出 现 的 顺 


上 (包括 这 

直到 第 二 次 出 现 正面 向 上 . 每 次 抛掷 
撕 人 硬币 所 赢得 的 

E 面 向 上 的 次 数 有 关 ; 而 在 游戏 


序 有 关 . 这 


中 , 样本 空间 由 所 有 的 长 度 为 10 的 正 、 反 序列 组 成 . 


1.2.3 


廊 


续 观 察 一 只 股票 , 共 观 察 5 天 , 又 或 者 在 
序 贯 树 形 图 来 刻画 相 


图 1.3 


序 贯 模型 


F 多 试验 本 身 具 有 序 贯 的 特征 . 例如 ， 


序 贯 树 形 加 


示例 . 设 所 考虑 的 试验 连续 


连续 抛掷 一 枚 硬币 , 一 共 抛 三 次 , 或 者 ; 


四 
个 ， 


本 空间 中 的 试验 结 


两 次 抛 撕 一 个 山 子 
的 样本 空间 


如 


2 3 4 
第 一 次 抛掷 


种 等 价 的 刻画 
一 次 抛掷 货 子 
的 2 旬 


等 
{(1,4 
心 圆 点 标示 的 
个 事件 就 是 


价 地 用 与 树 


吾 
内 


作 格 子 点 表示 , 也 可 以 | 
的 序 贯 特征 . 在 序 贯 树 形 图 


在 这 个 试验 中 , 可 
第 


村 二 = 


方 没 
得 到 的 数字 , 7 表示 


能 的 结果 是 全 体 有 序 对 (2 7)， 


次 抛 撕 角子 得 到 的 数字 . 试验 结果 可 


个 通信 接收 设备 上 接收 8 位 数字 . 常 
图 1.3 所 示 


试验 的 序 贯 树 形 图 


可 由 11 个 ( 即 0,1,2,… ,10) 试验 结果 组 成 , 而 在 游戏 2 


(Ey 


历次 抛 搓 有 4 个 面 的 散 子 ”, 其 样本 空间 有 两 


其中 i 表示 第 


] 右 图 中 的 序 贯 树 
中 , 每 个 可 


叶 相 联系 的 


示 的 结 点 代表 


事件 {(1,1), (1,2), (1 3), (1,4)}, 即 


当 抛 撕 的 角 子 有 6 个 试验 结果 的 时 候 , 就 是 指 抛掷 常见 的 正六 面体 . 


本 


当 落 在 桌面 时 , 5 


本 书 中 的 仙子 都 可 


有 一 面 与 桌面 接触 . 


路 径 表 示 更 能 


显示 试验 的 序 贯 特征 


. 一 一 译 者 注 


图 表示 , 后 
能 的 试验 结 
根部 到 树叶 的 一 个 路 径 表 示 ”. 左 
, (2, 4), (3, 4), (4, 4)}, 它 表示 第 2 次 抛掷 得 到 4. 同一 个 事件 可 以 在 右 图 
叶子 集合 表示 . 注意 序 贯 树 形 图 中 的 每 一 个 结 
这 个 结 点 出 发 的 所 有 的 叶子 构成 的 事件 . 例如 ， 


果 可 以 ) 


区 


中 阴 


] 左 图 中 


的 优点 是 可 以 表示 试验 
一 个 末端 的 树叶 表示 , 或 
影 部 分 代表 事件 


比 处 可 理解 为 
以 如 此 解释 . 一 一 译 者 注 


点 可 以 代表 一 个 事 
在 序 贯 树 形 图 中 用 
第 一 次 抛 扼 得 1 的 事件 


区 立 


i 


中 用 
竹 ， 这 
1 标 


抛掷 正四 


面体 ， 
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1.2.4 ”概率 律 


假定 我 们 已 经 确定 了 样本 空间 Q 以 及 与 之 联系 的 试验 , 为 了 建立 一 个 概率 模 
型 , 下 一 步 就 是 要 引进 概率 律 的 概念 . 直观 上 , 它 确定 了 任何 结果 或 者 任何 结果 的 
集合 ( 称 为 事件 ) 的 似 然 程 度 . 更 精确 一 点 说 , 它 给 每 一 个 事件 4, 确定 一 个 数 P(4)， 
称 为 事件 4 的 概率 . 它 满足 下 面 的 儿 条 公理 . 


概率 公理 

(1) ( 非 负 性 ) 对 一 切 事件 4, 满足 P(A) > 0. 

(2) (可 加 性 ) 设 4 和 B 为 两 个 互 不 相交 的 集合 (概率 论 中 称 为 互 不 相 容 的 
事件 ), 则 它们 的 并 满足 


P(AU B)=P(A) +P(B). 


更 一 般 地 , 若 A1, 42,.… 是 互 不 相 容 的 事件 序列 , 则 它们 的 并 满足 


P(A1U A2sU:.….)= P(A1)+P(A2)+.…. 


(3) ( 归 一 化 ) 整个 样本 空间 Q( 称 为 必然 事件 ) 的 概率 为 1, 即 P(O) = 1 


为 了 将 概率 律 形 象 化 , 可 以 把 样本 空间 中 的 试验 结果 看 成 质点 , 每 一 个 质点 有 
一 个 质量 . P(4) 就 是 这 个 质点 集合 的 总 质量 , 而 全 空间 的 总 质量 为 1. 这 样 , 概率 
事 中 的 可 加 性 公理 就 变 得 很 直观 了 : 不 相交 的 事件 序列 的 总 质量 等 于 各 个 事件 的 


概率 的 更 具体 的 解释 是 频率 . P(4) = 2/3 表示 : 在 大 量 重 复 的 试验 中 事件 4 
8 现 的 频率 约 为 2/3. 这 样 的 解释 虽然 不 总 是 合适 的 , 但 有 时 却 很 直观 易 懂 . 第 5 
章 将 会 重新 讨论 这 种 解释 . 

概率 律 有 许多 重要 的 性 质 并 没有 包含 到 上 述 公理 系统 中 , 原因 很 简单 , 它们 可 
以 从 公理 系统 中 推导 出 来 . 例如 , 由 可 加 性 和 归 一 化 公理 可 得 到 


mt 


1=P(0)=P(QUSG)=P(0)+P(S) = 1+P(®), 


由 这 个 性 质 可 知 空 事件 ( 称 为 不 可 能 事件 ) 的 概率 为 0, 即 


P(C) = 0. 


现在 推导 男 一 个 性 质 , 令 A1、A。 和 As 为 互 不 相 容 的 事件 , 重复 利用 可 加 公理 , 可 
得 到 
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P(AiU 42U 43) =P(Ai1U (42 WU 43)) 
(A1) 上 +P(42 U 43) 
(41) 十 P(4>) +P(43). 
类 似 的 推导 可 以 得 到 : 有 限 多 个 互 不 相 容 的 事件 的 并 的 概率 等 于 它们 各 自 的 概率 
之 和 . 后 面 将 讨论 更 多 的 性 质 . 
1.2.5 ”离散 模型 

现在 以 实例 说 明 构 造 概 率 律 的 方法 . 通常 我 们 根据 实际 试验 中 的 一 些 常识 性 
假设 构造 概率 律 . 
例 1.2 ”考虑 抛掷 一 枚 硬币 . 一 共有 两 种 结果 , 正面 向 上 {五 } 和 反面 向 上 {7T}. 样 
本 空间 为 0Q = {五 ,T}, 事件 为 

{H,T}, {H}, {7},%. 

若 硬 币 是 均匀 的 , 即 我 们 相信 在 抛 括 硬币 的 时 候 , 两 面具 有 相同 的 机 会 出 现 , 应 该 
确定 两 个 结果 的 概率 是 相等 的 , 即 P({ 五 })) = P({T}). 由 可 加 性 公理 和 归 一 性 公理 
可 知 


P({H,T) =P({H)D+P(UT)=1, 
由 此 可 推导 得 概率 律 
P({H,T) =1, P({H}))=0.5, P({7T}))=0.5, P({cy) = 0. 
显然 , 所 建立 的 概率 律 满 足 三 条 公理 . 
考虑 另 一 个 试验 , 依次 抛掷 三 枚 硬币 . 试验 结果 是 由 正面 和 反面 组 成 的 长 度 为 
3 的 序列 . 样本 空间 为 
0 = {HHH,HHT,HTH,HTT,THH,THT,TTH, TTT}. 
假定 上 述 8 种 结果 的 可 能 性 是 相同 的 , 即 每 个 结果 的 概率 为 1/8. 现在 利用 三 条 公 
理 建立 概率 律 . 例如 事件 
A4 == {两 个 正面 向 上 , 一 个 反面 向 上 } = {HHT, HTH,THH}. 
利用 概率 律 的 可 加 性 公理 , 事件 4 的 概率 等 于 组 成 该 事件 的 试验 结果 的 概率 之 和 : 
P({HHT, HTH,THH}) =P({HHT) +P({HTH}) +P({THH)) 
人民 


= 
8 8 8 
3 


8 
相似 地 , 任何 事件 的 概率 等 于 1/8 乘 上 该 事件 中 包含 的 结果 的 个 数 . 所 建立 的 概率 
律 满足 三 条 公理 . 


1 


.2 概率 模型 
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利用 概率 律 的 可 加 性 公理 以 及 前 面 例子 中 的 


天 


方法 , 可 以 得 到 下 面 的 结论 


离散 概率 律 


设 样本 空间 


由 有 限 个 可 能 的 结果 组 成 , 则 事 伯 


的 概率 可 


二 组 成 这 个 事件 的 试 


验 结果 的 概率 所 决定 . 事件 {s1, s2,… ,sn} 的 概率 是 P(si) 之 和 , 即 


本 书后 面 都 按 这 个 简化 的 约定 书写 . 


现在 设 样本 空间 为 


P({s1, 52,..* ,Sn}) = P(s1) + P(s2)+:… + P(s,). 
此 处 用 简单 的 记号 P(s;) 表示 事件 {8;} 的 概率 , 而 不 用 正式 的 记号 P({si;}). 


Q = {81, 52,… ,sn}, 并 且 每 个 试验 结果 是 等 概率 的 . 利 
归 一 化 公理 可 知 P(s;) = 1/n,i = 1,2,… ,n, 得 到 以 下 定律 . 


| 


离散 均匀 概率 律 (古典 概 型 ) 


设 样本 空间 由 


n 个 等 可 能 性 的 试验 结果 组 成 , 因 


上 每 个 试 3 


验 结 果 组 成 的 


有 件 


( 称 为 基本 事件 ) 的 概率 是 相等 的 . 由 此 得 到 
P(A) = 含 于 事件 4 的 试验 结 果 数 
现在 进一步 讨论 一 些 例子 . 


例 1.3 


种 可 能 


将 这 个 结果 数 除 以 16 (基本 事件 总 数 ) 便 得 到 这 个 事件 的 概率 . 下 面 几 个 事件 概 


考虑 连续 两 次 抛掷 一 个 有 4 个 面 


是 均匀 的 , 这 个 假定 意味 着 16 利 
的 结果 (i,7) 昌 


(基本 事件 数 


的 仍 子 ( 见 图 1.4). 现在 假定 这 些 骨 子 
可 能 的 试验 结果 是 等 可 能 的 , 即 16 种 结果 的 每 一 
8 现 的 概率 为 1/16(i,j = 12,3,4 和 . 这 是 一 个 古典 概 型 . 在 计 
算 一 个 事件 的 概率 的 时 候 必须 数 清楚 这 个 事件 所 包含 的 试验 结果 类 


Wis 


? 
本 


就 是 用 这 种 方法 计算 得 到 的 . 
P ({ 两 次 点 数 总 和 为 偶数 }) = 8/16 = 1/2， 


P ({ 两 次 点 数 总 和 为 奇数 } 


) 
) 
) 


= 8/16 = 1/2, 


P ({ 第 一 次 点 数 与 第 二 次 点 数 相同 }) = 4/16 = 1/4， 
P ({ 第 一 次 点 数 比 第 二 次 点 数 大 }) = 6/16 = 3/8， 


P({ 


至 


少 有 一 次 点 数 等 于 4}) = 7/16. 


关 
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两 次 抛 撕 一 个 散 子 
的 样本 空间 

4 

3 


概率 =7/16 


事件 ={ 两 次 抛掷 的 结果 相同 }， 
概率 =4/16 


事件 ={ 至 少 一 次 抛掷 得 4}， 


图 1.4 在 连续 两 次 抛 括 有 4 个 面 的 骨 子 的 过 程 中 的 若干 事件 和 它们 的 概率 , 计算 依据 


1.2.6 ”连续 模型 


若 试 验 的 样本 空间 是 一 个 连续 集合 , 其 相应 的 概率 律 与 离散 


离散 均 


青 况 有 很 大 的 差 


别 . 在 离散 情况 下 , 用 基本 事件 的 概率 就 可 以 确定 概率 律 , 但 连续 情况 却 不 同 . 下 面 


是 一 个 例子 . 这 个 例子 将 离散 模型 中 的 均匀 概率 律 推广 到 


例 1.4 在 赌场 中 有 一 种 称 为 幸运 轮 的 赌 具 . 在 轮子 上 均匀 连续 + 
为 0 到 1. 当 转动 的 轮子 停止 时 , 固定 的 指针 会 停留 在 刻度 上 . 这 检 


果 是 [0,1] 中 的 一 个 数 , 指针 所 指向 的 位 置 的 刻度 . 因此 样本 空间 是 2 = [0， 
定 轮 子 是 均匀 的 , 因此 可 以 认为 轮子 上 的 每 一 个 点 在 试验 中 都 是 等 可 能 的 . 但 一 个 


也 刻度 , 刻度 范围 
F, 产生 的 试验 结 


1]. 假 


单 点 在 试验 中 出 现 的 可 能 性 有 多 大 呢 ? 它 不 可 能 是 正 数 , 否则 的 话 , 若 单 点 上 


8 现 的 


概率 为 正 , 利用 可 加 性 公理 , 可 导致 某 些 事件 的 概率 大 于 1 的 篇 雇 结 论 . 因此 单个 


点 所 组 成 的 事件 的 概率 必定 为 0. 


在 本 例 中 , 可 定义 子 区 间 [a,0] 的 概率 为 5 一 a. 更 复杂 的 集合 的 概率 可 以 定义 


为 这 个 集合 的 长 度 . ”这样 定 义 的 概率 满足 概率 律 的 三 条 公理 , 因此 本 例 中 定义 的 


概率 是 符合 要 求 的 概率 律 . 


例 1.5 罗密欧 和 朱丽叶 约定 在 某 时 刻 见面 , 而 每 个 人 到 达 约 会 地 点 的 时 间 都 会 有 
延迟 , 延迟 时 间 在 0~1 小 时 . 第 一 个 到 达 约 会 地 点 的 人 会 在 那儿 等 待 15 分 钟 , 等 


了 15 分钟 后 若 对 方 还 没有 到 达 约 会 地 点 , 先 到 者 会 离开 约会 地 点 . 问 他 们 能 够 相 


会 的 概率 有 多 大 ? 


考虑 直 


Mo 


9 坐标 系 的 单位 正方 形 9 = [0,1] x [0,1]. 正方 形 中 的 每 个 点 的 两 个 坐 


@ [0,1] 的 一 个 子 集 3 的 长 度 定 义 为 [6 dt, 对 于 比较 简单 的 子 集 , 可 利 


通常 的 微 积分 计算 这 个 积 


分 . 对 于 菜 些 不 寻常 的 集合 , 这 个 积分 可 能 没有 合适 的 定义 , 这 些 事情 属于 更 高 深 的 数学 处 理 的 问 


题 . 顺便 指出 , 用 长 度 刻画 概率 律 的 合法 性 取决 于 单位 区 间 是 一 个 
每 个 单 点 的 概率 为 零 , 可 导致 [0, 1] 的 概率 为 0 的 结论 , 这 与 概率 


的 归 一 化 公理 相 了 矛盾. 


不 可 数 无 限 集 . 不 然 的 话 , 由 于 


1.2 概率 模型 11 


标 分 别 代 表 他 们 可 能 的 延迟 时 间 . 每 个 点 都 可 以 是 他 们 的 延迟 时 间 , 而 且 是 等 可 能 
的 . 由 于 等 可 能 性 的 特点 , 我 们 将 Q 的 子 集 出 现 的 概率 定义 为 这 个 子 集 的 面积 . 这 
个 概率 律 满足 三 条 概率 公理 . 罗密欧 和 朱丽叶 能 够 相 会 的 事件 可 用 图 1.5 中 阴影 部 
分 表示 . 它 的 概率 等 于 7/16. 


y 
1 
1/4 
0 1/4 1 7 
图 1.5 事件 M 代表 罗密欧 和 朱丽叶 的 相互 等 待 时 间 不 超过 15 分 钟 ，M 是 图 中 阴影 部 分 
( 见 例 1.5), 即 


M={(z,y)|z—-y<1/40<r<10<y<1}. 
AM 的 面积 等 于 1 减 去 两 个 没有 阴影 的 三 角形 的 面积 之 和 , 即 1 一 (3/4):(3/4) = 7/16. 
因此 , 他 们 能 够 相 会 的 概率 为 7/16 
1.2.7 ”概率 律 的 性 质 
由 概率 公理 可 以 推导 出 很 多 性 质 , 下 面 列举 若干 性 质 . 


概率 律 的 若干 性 质 
考虑 一 个 概率 律 , 令 A、B 和 C 为 事件 . 
(a) 若 A4cB 则 P(A4) < P(B). 
(b) P(AU B)=P(A)+P(B) -P(ANB). 
(¢) P(AU B) < P(A) 
(d) P(AU BUC) =P(A) +P(A NB) +P(AN BNC). 


十 
十 卫 


CE 


\ 图 证 明 ( 见 图 1.6). 注 


这 些 性 质 以 及 其 他 类 似 的 性 质 , 都 可 以 形象 化 地 用 维 | 
意 , 性 质 (c) 可 以 推广 成 


P(A1U A2 UU A,) < > P(4i)， 


j= 
现在 证 明 这 个 推广 的 结果 . 将 性 质 (c) 用 于 事件 41 和 42 U .…U 4 得 到 
P(A1U As Ui UA) < PA) 4P(A2 UU A,). 
进一步 将 性 质 (c) 用 于 事件 A 和 4s U .…U 4 得 到 
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P(AsU As UU An) <P(A2) +P(As UU A,). 
如 此 继续 下 去 , 最 后 将 诸 不 等 式 相 加 , 便 得 到 所 需 结 果 . 


1.6 利 
不 相 


设 A CB, 则 B 是 两 个 


公理 得 


如 而 
工 
等 
加 
蕴 
区 
性 
过 
闷 


(a)、(b)、(c) 和 (qd) 
J 


事件 4 和 A°“ nn B 的 并 ( 见 轿 (a)). 利用 可 加 性 

P(B) = P(A) + P(A° NB)> P(A), 
:中 不 等 式 利用 了 概率 的 非 负 性 公理 . 性 质 (a) 得 证 . 
图 (b), 可 将 事件 AU B 和 B 分 解 成 不 相 容 的 事件 之 并 : 
AUB=AU(A° nm)， B=(ANB)U(A NB). 


利用 可 加 性 公理 , 得 到 


屋 谤 


怠 党 


+ 


加 


PU4uB)=P4)+PUdenB)，  P(B)=P(ANB)+P(A°NB). 


第 一 式 减 去 第 二 式 并 移 项 得 到 P(4UB) = P(A) 十 P(B) 一 P(A4NnB), 即 性 质 (b) 成 
立 . 利用 概率 的 非 负 性 公理 得 到 P(ANB) > 0, 从 而 P(L4uB) 乏 P(L4) 十 P(B) 成 立 ， 
性 质 (c) 得 证 . 
日 图 (c), 可 以 看 出 事件 4U BUC 可 以 分 解 成 三 个 互 不 相 容 的 事件 的 并 : 


人 


AUBUC= AU(ANB)U(A NB NO), 


重复 利用 可 加 性 公理 可 得 到 性 质 (d). 


1.2.8 ”模型 和 现实 
概率 理论 可 以 用 来 分 析 现 实 世 界 的 许多 不 确定 现象 . 这 个 过 程 通常 分 成 两 个 阶段 . 


1.2 概率 模型 
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(a) 第 一 阶段 ， 


hy A 一 


山行 . 


站 是 6 此 、 己 罗 

科学 和 工程 学 中 很 
易 操作 性 ， 此 外 ， 
确定 模型 . 这 将 在 第 
(p) 在 第 二 阶段 , 我 们 将 在 完全 严格 的 概率 模型 之 下 进行 


的 概率 或 推导 出 一 些 十 分 有 趣 的 性 质 ， 第 一 阶段 的 


日 天 


的 模型 比 “ 正 硼 


在 一 个 适当 的 样本 空 
个 阶段 , 没有 关于 建立 模型 的 一 般 规则 ， 
有 些 人 会 怀疑 所 建立 模型 的 真实 性 . 有 时 , 人 们 宁愿 使 


i 


口 


玉 鸭 


及 


司 中 给 出 概率 律 , 从 而 建立 概率 模型 . 在 这 
要 你 建立 的 概率 律 符合 概率 的 三 条 公理 


昔 误 ”的 模型 , 其 


6 


”的 模型 简 


单 日 易于 处 理 . 这 利 


题 将 会 有 一 个 疹 
化 为 乌有 . 
在 概率 论 中 充 


联系 , 而 第 


二 阶段 则 是 严格 


满 这 样 的 “ 悖 论 ” 


和 8 章 和 第 9 章 讨 论 . 


普遍 . 在 实际 工作 中 , 选择 的 模型 往 
统计 学 家 还 依据 历史 数据 和 


限制 在 概率 公理 之 下 的 逻辑 
及 的 计算 很 复杂 或 概率 律 的 陈述 不 简明 , 推理 
E 确 的 答案 , 不 会 产生 歧义 . 只 要 有 足够 高 的 能 力 , 所 有 的 困难 


pe 


处 理 问题 的 态度 在 


问 


和 


主 既 要 准 


确 、 简 单 又 要 兼顾 


[过 去 相似 试验 的 结果 , 利用 统计 方法 


E 导 , 计算 某 些 事件 


E 务 是 建立 现实 世界 与 数学 的 
E 理 .在 后 一 阶段 , 如 果 涉 


E 和 理解 就 会 过 到 困 


难 . 但 是 所 有 的 问 


都 将 


: 对 同一 个 问题 , 不 同 的 计算 方法 似乎 会 得 到 


不 同 的 结论 . 在 这 种 模棱两可 的 概率 律 中 选 定 模型 会 导致 结论 的 不 确定 . 贝 特 朗 悖 


论 是 一 个 著名 的 例子 ( 见 图 


1.7). 


概率 论 发 展 简 史 

。 公 元 前 . 在 古 希 腊 和 十 罗马 时 期 , 机 会 游戏 十 分 盛行 . 但 是 这 个 时 期 关于 
游戏 的 理论 还 没有 发 展 起 来 . 究 其 原因 , 那 时 修 希 腊 的 数字 系统 不 能 提供 
代数 运算 发 展 的 机 会 . 在 科学 分 析 基础 上 的 概率 论 一 直 等 到 印度 和 阿拉 
的 后 半 叶 )， 以 及 文艺 复兴 时 期 产生 


伯 发 明了 现代 算术 系统 (第 一 个 千 


了 大 量 的 科学 思想 , 才 有 机 会 发 展 . 


16 世纪 . 卡尔 达 诺 , 一 个 光彩 夺目 同时 富有 争议 的 意大利 数学 家 出 版 了 


第 一 本 关 了 给 出 了 搓 骨 子 和 扑克 游戏 中 随机 事件 的 概 


F 机 会 游戏 的 书 , 书 


率 的 正确 计算 方法 . 


17 世纪 . 费 马 和 帕斯卡 之 间 的 通信 中 提 及 几 个 十 分 有 趣 
动 了 这 个 令 
18 世纪 . 雅 各 布 . 伯 努 利 研究 了 
定律 . 这 条 大 数 定律 为 联系 理 
家 , 诸如 丹尼尔 . 伯 努 利 、 莱 布 尼 茨 、 贝 叶 其 
论 的 发 展 和 实际 应 用 也 作出 了 巨大 贡献 . 棣 莫 弗 引入 了 正 态 分 布 并 证 明 


页 域 的 研究 热潮 . 


了 第 一 个 中 心 极限 定理 . 


19 世纪 . 3 


领域 中 的 


复 投 币 试验 序列 并 


E 论 概率 与 经 验 事实 打下 了 基础 . 后 面 的 数学 


、 拉 格 计 


拉 普 拉 斯 在 他 的 一 本 很 有 影响 的 书 中 确立 了 概率 论 在 定量 研究 
要 地 位 . 同时 他 本 人 对 概率 论 作出 了 六 


F 多 原创 性 的 贡献 , 包括 


的 概率 问题 ， 推 


引入 了 第 一 条 大 数 


日 等 人 对 理论 概率 


六 


14 第 


-总 


1 章 


样本 空间 与 概率 


已 


-村 


推 
预测 ， 


了 更 一 般 形式 的 
并 且 应 用 了 最 小 


二 乘法 ， 


F 心 极限 定理 ， 惑 
他 们 的 


域 . 泊 松 出 版 了 一 本 很 有 影响 的 书 ， 


的 姓名 命名 的 
诺 夫 等 研究 了 


思想 的 


在 这 种 NA 心 \ 
20 世纪 . 现在 
尔 莫 戌 罗 夫 5 
在 公理 系统 的 


主导 之 
已 经 不 
入 的 
基础 上 发 展 起 来 的 
物理 现象 的 联系 无 关 . 然而 , 由 于 
部 分 的 不 确定 性 现象 , 因 


泊 松 分 布 
极限 定理 
时 期 , 概率 论 被 认为 是 


电 在 其 中 . 


二 


A 


~、 


1 


1 
日 


所 适用 


切 比 雪夫 和 他 的 学 
,在 这 个 领域 


再 以 相对 频率 作为 概率 论据 
的 概率 论 公理 系统 . ny 
概率 论 只 
概率 论 能 够 描述 和 解释 现实 
而 在 科学 和 工程 中 , 概率 论 得 到 广泛 


其 中 包括 了 很 多 原创 性 
生 马 尔 可 夫 、 
标 


内 提高 了 数学 的 严格 性 的 


极 


依赖 于 逻辑 的 正确 性 


让 德 和 高 斯 将 概率 论 应 用 
工作 大 大 地 拓展 了 概率 论 的 
的 成 果 ， 以 他 


然 科 学 的 一 部 分 , 它 的 主要 任务 是 解释 物理 现象 . 
Dt one 
尺 之 以 由 
其 他 分 支 一 一 样 ， 
, 而 与 实际 
世界 中 绝 大 
应 用 . 


到 天 文 
应 用 领 


准 . 在 此 


限 . 


科 


0 


通过 C 点 的 弦 


贝 特 天 悖 论 . 


oy 


题 的 时 候 , 必 


在 图 


现在 随机 地 选 渤 一 处 纺 问 左 
赖 于 “随机 地 选 定 ”的 确 
(a) 中 ， 取 一 半 


夹 角 区 
处 的 改 


B 
(a) 


9 


4B 的 中 点 


(b) 


贝 特 朗 于 1889 年 提供 , 它 说 明 这 样 
义 的 概率 模型 . 


一 个 


吾 


原理 : 解决 一 个 实际 


下 问 


内 有 


设 在 一 个 个 正三 


由 


形 ， 内 接 于 圆 


二 一 一 人 


长 度 大 于 


内 接 正 三 
切 定 义 . 图 中 (a) 和 (b) 
EF 径 4AB, 在 AB 上 


形 的 边 的 概率 等 于 多 少 ? 


周 . 
其 解答 依 


的 两 种 方法 导致 相 


互 矛盾 


的 Ve. 


随机 地 2 点 C. 所 谓 随机 


AB 上 所 有 的 点 
何 的 知识 可 知 ， 当 
长 , 而 远离 加 
证 172: 


有 相 


心 时 , 弦 的 长 度 减 小 . i 


在 图 (b) 中 ， 


责 


条 通过 VV 的 直 


为 夹 
初等 
于 5 取 值 于 (0， 


7), pe 


同 的 机 会 被 取 到 . 
和 O 点 的 位 置 恰巧 在 AB 
这 样 


周 上 取 一 点 V 作为 ] 


通过 点 C， 


一 条 弦 牌 直 于 AB. 


也 取 点 是 指 
初等 几 


的 中 点 时 ， 1 长 度 刚 
的 长 度 大 于 内 接 正三 


纺 


页 点 .通过 线 , 然 


D] 


好 等 于 三 角 
形 的 边 长 


形 的 边 
的 概率 等 


后 随机 地 夯 


记 直线 与 切线 的 来 


为 5. 随机 地 夯 


6 是 在 (0, 7) ee 
几何 的 知识 可 知 , 当 


割 圆 得 到 的 弱 


现在 考 


的 , 可 以 认 
的 长 度 . 


弦 的 长 度 大 于 三 


形 的 边 长 . 


F 内 接 正三 / 


-的 概率 是 1/3 


1.3 条 件 概 率 15 
1.3 条 件 概 率 
条 件 概率 是 在 给 定 部 分 信息 的 基础 上 对 试验 结果 一 种 推断 . 下 面 是 一 些 例子 . 


在 i 


(a) 


掷 的 点 数 为 6 的 可 能 愧 
(b) 在 猜 字 游 戏 中 ， 


(d) 在 雷达 显示 有 


二 


设 我 们 已 
能 性 . 

任何 事 
P(A|B). 


这 个 新 的 条 件 概率 必须 是 
LE 为 等 概率 模型 时 , 其 相应 的 条 件 概 率 也 应 当 与 直观 相符 合 . 例如 
等 概率 的 试验 结果 . 如 果 我 们 已 经 知道 试验 的 结果 是 偶数 ， 


概率 和 


子 的 试验 中 一 共有 6 利 


和 我 们 要 构造 
牛 4 发 生 的 概率 . Re 


P， 已 知 秃 


上 


性 


车 续 两 次 抛掷 货 子 的 试验 中 , 已 知 两 次 抛 找 
E 有 多 大 ? 
第 一 个 字母 为 t, 第 二 个 字母 为 h 的 可 能 性 
(c) 在 查 体 时 , 为 检查 是 否 患 某 种 疾病 需要 检测 某 项 指标 . 已 知 某 人 


标 为 阴性 , 问 这 个 人 得 病 的 可 能 性 有 多 大 ? 


合格 的 概率 律 , 即 


现 一 个 点 , 这 个 点 代表 远 处 有 
上 切 的 话说 , 给 定 一 个 试验 、 与 这 个 试验 相对 应 的 样 
ee 而 希望 知道 男 一 个 给 定 的 导 
个 新 的 概率 律 , 它 顾及 了 导 
定 B 发 生 之 下 导 


E 件 


架 飞 机 的 可 


FB 已 经 发 生 的 信息 
有 件 4 的 条 件 概率 , 记 作 


本 空 


满足 三 条 概率 公理 . 同 有 


的 点 数 的 总 和 为 9, 第 一 次 抛 


有 多 大 ? 
的 该 项 指 


能 性 有 多 大 ? 
间 和 概率 律 , 假 
有 件 4 发 生 的 可 
息 , 求 出 


寺 当 原来 的 
, 在 抛掷 骨 


即 2,4,6 这 三 种 结果 之 一 发 生 ， 而 这 三 种 结果 发 生 的 可 能 性 应 该 是 相等 的 ， 这 样 
得 到 
P (试验 结果 是 6 | 试验 结果 是 偶数 ) = 3 
从 这 个 结果 的 推导 过 程 看 出 , 对 于 等 概率 模型 的 情况 , 下 面 的 关于 条 件 概率 的 定义 
是 合适 的 , 即 
事件 4n B 的 试验 结果 数 
?41B) = 一事 古 B 的 试验 结果 
将 这 个 结果 推广 , 我 们 得 到 下 面 的 条 件 概率 定义 : 
_ P(ANB) 
和 


之 , P(A 
1.3.1 


件 概 率 满 足 三 


条 概率 公民 


条 件 概率 是 一 个 概率 律 


对 于 给 定 的 事件 B, 条 件 概率 P(4 
E. 非 负 性 是 明显 的 . 又 由 于 


P(Q|B) = 


B) 形成 了 样 


P(Q 


NB) 


P(B) 


其 中 假定 P(B) > 0. 如 果 B 的 概率 为 0，, 相应 的 条 件 概 率 是 没有 页 
B) 是 事件 4m 的 概率 与 事件 B 的 概率 的 比值 . 


本 空 


二 1 


P(B) 


~ P(B) 


) 


3 间 上 的 一 个 概率 律 ， 


即 条 
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说 明 归 一 化 公理 也 是 满足 的 . 现在 验证 可 加 性 . 设 41 和 42 是 任意 两 个 不 相 容 的 
事件 ， 


P((41U 42) NB) 

P(B) 
P((A1NB)U (A NB)) 
P(B) 

P(A1N B)+P(A2N B) 
P(B) 

P(A1NB) P(A2NB) 
PD 8) 
= P(A1|B) + P(A2|B), 


此 处 第 三 个 等 式 利 用 了 事件 A1nB 和 Asn B 的 不 相 容 性 和 无 条 件 概 率 的 可 加 性 
可 数 个 互 不 相 容 事件 的 可 加 性 的 验证 是 类 似 的 . 

由 于 我 们 已 经 证 实 了 条 件 概率 是 一 个 合格 的 概率 律 , 所 有 关于 概率 律 的 性 质 对 
于 条 件 概率 都 是 成 立 的 . 例如 将 P(4UC) < P(A4) + P(C) 转变 成 条 件 概 率 的 性 质 ， 
变 成 


P(AiU A2|B) = 


P(AUC|B) < P(AIB) + P(C|B). 
注意 到 P(B|B) = P(B)/P(B) = 1, 条 件 概 率 完全 集中 在 B 上 , 这 样 , 我 们 也 可 以 将 
B 以 外 的 结果 排除 掉 , 并 将 B 看 成 新 的 样本 空间 . 
现在 将 条 件 概率 的 性 质 加 以 总 结 . 


条 件 概 率 的 性 质 
。 设 事件 B 满足 P(B) > 0, 则 给 定 B 之 下 , 事件 4 的 条 件 概率 由 下 式 给 出 


P(ANB) 
P(B) 


P(A|B)= 


这 个 条 件 概率 在 同一 个 样本 空间 Q 上 给 出 了 一 个 新 的 (条 件 ) 概率 律 . 凡 

是 现 有 的 概率 律 的 所 有 性 质 对 这 个 条 件 概率 都 是 适用 的 

由 于 条 件 概率 所 关心 的 事件 都 是 事件 B 的 子 事件 , 可 以 把 条 件 概率 看 成 

BB 上 的 概率 律 , 即 把 事件 妃 看 成 全 空间 或 必然 事件 . 

。 当 试验 的 9 为 有 限 集 , 并 且 所 有 试验 结果 为 等 可 能 的 情况 下 , 条 件 概率 委 
可 由 下 式 给 出 


事件 4 已 的 试验 结果 数 
事件 BB 的 试验 结果 数 


P(AIB)= 
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伤 


11.6 在 连续 三 次 抛掷 一 个 两 面 均匀 的 硬币 的 试验 中 ， 
中 4 和 B 由 下 式 给 出 


4 = {正面 出 现 的 次 数 多 于 反面 出 现 的 次 数 }， B = 


我 们 希望 找到 P(A4|B), 其 


{ 第 一 次 抛掷 得 到 正面 }. 


样本 空间 由 下 列 8 个 试验 结果 组 成 : 
0 = {HHH,HHT,HTH,HTT,THH,THT,TTH,TTT}. 
由 于 硬币 两 面 的 均匀 性 , 可 以 假定 这 8 个 试验 结果 是 等 可 能 的 . 事件 B 由 4 个 试 
验 结果 五 HH、 HHT、HTH、HTT 组 成 , 因此 
P(B) = 
而 事件 A4N B 由 结果 五 HH、HHT、HTH 组 成 , 其 概率 
P(ANB)= ~ 

这 样 , 得 到 

pm) -PO 
由 于 所 有 的 试验 结果 是 等 概率 的 , 我 们 也 可 用 简化 的 算法 计算 P(4|B). 不 必 计 算 


P(B) 和 P(AN B), 而 直接 计算 事件 4nB 和 B 中 的 基本 事件 个 数 (分 别 等 于 3 和 
人 4, 相 比 即 得 3/4. 
例 1.7 “在 连续 两 次 抛 搓 一 个 均匀 的 有 4 个 面 的 仍 子 的 试验 中 , 假定 所 有 16 种 试 


验 结果 是 等 可 能 的 , 分 别 记 X 和 YY 为 第 一 次 和 第 二 次 抛 撕 的 结果 . 现在 希望 计算 


条 件 概率 a 其 中 


A= {max(X,Y) = m}, B= {min(X,Y) = 2}, 


P 


而 m= 1,2,3,4. 像 | 
(4nB) 和 P(B), 然后 按 条 件 


订 


将 4nB 中 的 试验 结果 的 个 数 


例 1.8 有 两 个 设计 团 


求 他 们 分 别 在 一 个 月 内 做 一 个 诸 


(a) C 成 功 的 概率 为 2/3; 
(b) N 成 功 的 概率 为 1/2; 


队 , 一 个 比较 稳重 , 记 作 C, 男 


一 个 例子 一 样 , 可 以 有 两 种 计算 方法 . 一 种 方法 是 首先 计算 
概率 的 定义 计算 P(4|B). 而 PL4nB) 和 了 P(B) 的 
| 算 方 法 是 : 数 清楚 这 些 事件 中 的 试验 结果 的 个 数 , 再 除 以 16. 另 一 种 方法 是 直接 


除 以 B 中 的 试验 结果 的 


个 数 ( 见 图 1.8). 


新 设计 . 从 过 去 的 经 验 知道 


(c) 两 个 团队 中 至 少 有 一 个 成 功 的 概率 为 3/4. 
已 知 两 个 团队 中 只 有 一 个 团队 完成 了 任务 . 问 这 个 任务 是 N 完成 的 概率 有 多 


大 ? 


个 具有 创新 性 记 作 N. 要 
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所 有 结果 都 具有 等 可 能 的 概率 1/16 


图 1.8 例 1.7 的 图 示 . 试验 的 样本 空间 由 连续 两 次 抛 撕 有 4 个 面 的 骨 子 的 所 有 可 能 结果 组 
成 , 刻画 条 件 的 事件 B = {min(X,Y) = 2} 由 5 个 阴影 部 分 的 点 所 代表 的 试验 结果 
组 成 . 事件 4 = {max(X,Y) = m} 与 事件 B 的 相交 部 分 当 m = 3 或 4 时 有 两 个 试 
验 结果 , 当 m = 2 时 只 有 一 个 试验 结果 , 当 m = 1 时 没有 公共 元 素 . 这 样 , 我 们 得 到 


2/5，m 二 3 或 4 
P({max(X,Y)=m}B)= $4 1/5, m=2, 


0， 770 一 虐 . 
现在 共有 4 种 可 能 的 结果 ， 
SS : 双方 成 功 FF : 双方 失败 
SP:C 成 功 , N 失败 FS :CO 失败 ,N 成 功 


现在 将 (a)、(b) 和 (c) 写成 概率 等 式 


P(SS) +P(SF) = 3, P(SS) +P(FS)=3, P(SS)+P(SF)+P(FS)=7. 


P(SS) +P(SF)+P(FS) +P(FF)=1, 


得 到 
P(55) = P(SF) = P(FS) = P(FF)= -= 
所 求 的 条 件 概率 为 
1 
P(FSI{SF, FPS) = T=. 


a 


1.3 
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1.3.2 ”利用 条 件 概率 定义 概率 模型 


在 为 实验 建立 具有 序 贯 特征 的 概率 模型 的 时 候 , 通常 很 自然 地 首先 确定 条 件 概 


率 , 然后 确定 无 条 件 概率 . 在 这 个 过 程 中 , 经 常 使 用 的 是 条 件 概率 公式 P(A4n B) = 


P(B)P(AIB). 


例 1.9 (雷达 探测 器 ) ”有 
以 99% 的 概率 探测 到 并 报警 . 若 该 地 区 没有 飞机 , 雷达 会 以 


Dy 


现在 假定 一 架 飞 机 以 5% 的 概率 出 现在 该 地 区 . 问 飞 机 没有 


10% 


雷达 探测 设备 在 工作 , 若 在 茶 区 域 有 一 架 飞 机 , 雷达 


的 概率 虚假 报警. 


现在 该 地 区 而 雷达 


虚假 报警 的 概率 有 多 大 ? 飞机 出 现在 该 地 区 而 雷达 没有 探测 到 的 概率 有 多 大 ? 


可 以 用 图 1.9 的 序 贯 树 形 图 表达 这 些 事件 . 记 
4 = { 飞 机 出 现 }， 
B = { 雷 达 报 警 }， 


而 它们 的 补 集 为 


4e = { 飞 机 不 出 现 }， 
B° = { 雷 达 未 报警 }. 


题 中 给 出 的 概率 记录 在 图 1.9 中 描述 样本 空间 的 序 贯 树 的 相应 枝条 上 .每 个 试验 
结果 可 用 树 形 图 的 叶子 表示 , 它 的 概率 等 于 由 根部 到 树叶 的 枝条 上 显示 的 数据 的 乘 


职 . 所 求 的 概率 为 


P( 飞 机 不 出 现 , 报警 )=P(4cmB)=P(4*)P(BI42)=0.95x0.10 王 0.095， 


P( 飞 机 出 现 , 未 报警 )=P(AmB°)=P(A)P(B°|A4)=0.05x0.01=0.000 5. 


图 1.9 例 1.9 有 关 雷 达 探 测 的 事件 的 序 贯 树 形 图 


A - 立 - 


20 和 用工 衬 
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由 上 例 的 启示 , 我 们 可 以 利用 序 贯 树 形 岁 
(a) 设立 一 个 序 贯 树 形 图 , 让 关心 的 事件 处 于 图 的 末端 (叶子 )， 


到 叶子 的 路 径 _ 


的 每 


点 一 直到 叶子 的 


(b) 在 路 径 的 每 个 分 术 


系列 事 作 


个 结 点 代表 
发 生 让 
上 相应 的 条 件 概率 


个 事 伯 
的 结果 . 


F 写 


计算 概率 , 规则 妇 


F. 而 我 们 所 关心 的 事件 的 发 生 是 1 


HF 下 . 


根 结 点 一 直 
根 结 


(c) 叶子 所 代表 的 事件 是 相应 的 分 枝 上 的 条 件 概率 的 乘积 . 


数学 上 可 以 这 机 


都 发 生 , 即 
贯 树 形 图 
图 1.10). 


4=4n42m…Dn 


来 表示 : 事件 4 发 生 的 充 要 条 件 是 一 系列 事件 A1,… 
An. 4 发 生 就 是 A1 发 生 , 接着 42 发 生 等 ， 
上 nn 个 结 点 上 的 事件 顺 次 发 生 . 4 发 生 的 概率 由 如 下 规则 


卫 


给 


乘法 规则 


假定 所 有 涉及 的 条 人 


概率 都 是 正 的 , 我 们 有 
P(NM1hi;) =P(4i)P(4azl4)P(4s4n42)…P(4n| Ma Ai). 


图 1.10 ”乘法 规则 的 序 贯 树 形 图 表示 . 事 伯 
路 径 的 末端 


劳 边 同 时 诗 


上 标示 的 条 


P( 


注意 , 在 图 


事件 4n4n 4 


叶子 表示 ， 


明 相应 的 条 们 


而 路 径 


二 


上 每 一 个 中 


A2N pn 


树枝 下 方 列 


现在 我 们 来 训 


P(n2 14i) = P(Ai) 


末端 相应 于 
概率 的 乘积 


N14i)=P 


(A1)P(A2|A1)P(As 
间 的 点 也 代表 一 个 


4i. 它们 的 概率 等 于 相应 的 条 们 


F 4= nm2 
上 的 每 段 树 校 表示 术 


145 


4 


有 件 ， 


明 . 例如 , 寻 


P(A1 NM 42> 


E 明 乘法 规则 : 1 


P(A 


此 从 


FE A1n A A 省 


下 列 恒等式 
2N Ai) 


事件 4 4m … 4 


事件 A = Ai1n A 站 … 几 A, 


例如 


应 了 


F 图 上 


第 


一 段 路 径 表 示 , 或 等 价 地 
日 应 


的 


E 强 从 


P(A,AiNAN A NM A,_1) 


] 这 一 段 
F 41,… ,An. 在 树 校 的 


B44 


概率 为 


根部 到 该 点 的 树枝 


pays Pll rit A 


概率 的 乘积 , 这 些 乘积 


AAS 
的 第 


P(AsN A1N A2) 


1 个 结 点 代表 事件 Ai mn 
因子 都 已 在 相应 的 


4 个 结 点 , 其 概率 为 


人 后 A;) = P(A1)P(A2|A1)P(As|A1 向 42) 


P(A1) 


EC nm) 


P(N hs) 
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再 利用 条 件 概 率 的 定义 , 上 式 右 端 变 成 
P(ADP(Az|A1)P(As|AiN A2) PC A;). 


对 于 两 个 事件 41 和 4。 的 情况 , 乘法 规则 就 是 条 件 概率 的 定义 . 

例 1.10 ”从 52 张 扑 克 牌 中 连续 无 放 回 地 抽取 3 张 牌 .我 们 希望 求 出 3 张 牌 中 
没有 红 桃 的 概率 . 假定 在 抽取 的 时 候 , 一 摊牌 中 的 每 一 张 牌 都 是 等 可 能 地 被 抽取 的 . 
根据 对 称 性 , 52 张 牌 中 任意 3 张 牌 的 组 合 被 抽取 的 可 能 性 都 是 相同 的 . 一 个 想法 
简单 但 是 计算 麻烦 的 方法 是 : 数 清楚 不 含 红 桃 的 3 张 牌 的 可 能 组 数 , 再 除 以 所 有 3 
张 牌 的 可 能 组 数 . 现在 利用 试验 的 序 贯 树 形 图 表示 法 以 及 乘法 规则 进行 计算 ( 见 图 
1.11). 


1.11 例 1.10 中 抽取 3 张 扑克 看 的 试验 的 序 贯 树 形 图 表示 


定义 


4; = {第 i 张 牌 不 是 红 桃 }， i = 1,2,3. 


现在 利用 乘法 规则 
P(Ai1N AsN As) = P(A1)P(Az|Ai)P(As|AiN A2), 


计算 3 张 牌 中 没有 红 桃 的 概率 P(4; mn 42m 43). 由 于 52 张 牌 中 有 39 张 不 是 红 桃 ， 
我 们 得 到 


P(A1) = 
由 于 第 一 次 抽出 一 张 不 是 红 桃 , 剩 下 51 张 牌 中 有 38 张 不 是 红 桃 , 因此 
P(AslA1) = 于 


最 后 , 由 于 前 面 两 张 不 是 红 桃 , 剩 下 50 张 牌 中 有 37 张 不 是 红 桃 , 这样 


37 
P(4sl4in 4a) = 5 
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这 些 条 件 概率 列 于 序 贯 树 形 图 (图 1.11) 的 相应 树枝 的 上 方 . 现在 只 需 将 路 径 上 的 
(条 件 ) 概率 相 乘 , 得 到 


A 
注意 , 由 于 在 序 贯 树 形 图 上 已 经 标明 了 许多 (条 件 ) 概率 , 其 他 的 一 些 事 件 也 可 


以 相应 地 计算 . 例如 


P( 第 一 张 不 是 红 桃 , 第 二 张 牌 是 红 桃 ) = 总 . 避 。 
P( 第 一 、 第 二 两 张 不 是 红 桃 , 第 三 张 牌 是 红 桃 ) = 5 . 5 :有 


例 1.11 一 个 班 由 4 个 研究 生 和 12 个 本 科 生 组 成 , 随机 地 将 这 16 人 分 成 4 个 4 
人 组 . 问 每 个 组 分 得 一 个 研究 生 的 概率 有 多 大 ? 在 这 个 问题 中 , 什么 是 随机 地 分 组 
呢 ? 可 以 将 分 组 问题 看 成 随机 地 选 位 子 (不 妨 将 位 子 s1,.… ,ss 看 成 第 一 组 , 而 将 
位 子 ss,… ,sg 看 成 第 二 组 , 等 等 ), 每 个 人 都 有 相同 的 可 能 性 选择 16 个 位 子 中 任 
意 一 个 位 子 , 当 若 干 个 位 子 被 某 些 学 生 选 定 以 后 , 没有 选 定位 子 的 同学 以 完全 平等 
的 资格 去 选择 剩 下 的 位 子 ， 下 面 基 于 图 1.12 所 示 的 序 贯 树 形 图 , 使 用 乘法 规则 来 
计算 所 需 概率 . 现在 设 4 个 研究 生 的 代号 为 1, 2, 3, 4. 考虑 事件 


41 = {学 生 1 和 2 分 在 不 同 的 组 }， 
42 ={ 学 生 1、2 和 3 分 在 不 同 的 组 }， 
hs = {学 生 1、2、3 和 4 分 在 不 同 的 组 }. 
我 们 所 求 的 概率 为 P(43). 利用 乘法 规则 ; 
P(As3) =P(A1N AsN A3) = P(AN)P(As|A1)P(As|AiN 42)， 


现在 不 妨 设 学 生 1 已 经 选 定 了 位 子 , 在 剩余 的 15 个 位 子 中 只 有 12 个 位 子 与 学 生 
1 分 在 不 同 的 组 内 . 显然 学 生 2 与 学 生 1 分 在 不 同 组 内 的 可 能 性 为 12/15, 即 
12 

类 似 地 , 当 学 生 1 和 学 生 2 已 经 分 在 2 个 不 同 组 以 后 , 学 生 3 只 有 选择 剩 下 14 个 
位 子 中 的 8 个 位 子 , 才能 与 学 生 1、2 处 于 不 同 的 组 . 这 说 明 

P(4s|41) 一 地， 
在 学 生 1、2 和 3 被 分 派 在 不 同 组 的 条 件 下 , 学 生 4 只 有 在 13 个 位 子 中 选择 其 中 
的 4 个 位 子 之 一 , 才能 与 他 们 处 于 不 同 的 组 内 . 这 样 


4 
P(As|A1N 4a) = 五 : 
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将 三 个 概率 相 乘 , 得 到 所 求 的 概率 为 


12 8 4 
15 14 13° 


反映 这 种 试验 的 序 贯 树 形 图 见 图 1.12. 


图 1.12 例 1.11 中 学 生 分 组 试验 的 序 贯 树 形 图 表示 


例 1.12 ( 蒙 提 ， 霍 尔 问题 , 也 称 三 门 问题 ) ”这 是 美国 有 奖 游戏 节目 中 的 一 个 经 
第 出 现 的 智力 测验 问题 . 你 站 在 三 个 封闭 的 门 前 , 其 中 一 个 门 后 有 奖品 . 当然 , 奖品 
在 哪 一 个 门 后 是 完全 随机 的 . 当 你 选 定 一 个 门 以 后 , 你 的 朋友 打开 其 余 两 肩 门 中 的 
一 扇 空 门 , 显示 门 后 没有 奖品 . 此 时 你 可 以 有 两 种 选择 , 保持 原来 的 选择 , 或 改选 另 
一 虱 没 有 被 打开 的 门 . 当 你 作出 最 后 选择 以 后 , 如 果 打 开 的 门 后 有 奖品 , 这 个 奖品 
就 归 你 . 现在 有 三 种 策略 : 

(a) 坚持 原来 的 选择 ; 

(b) 改选 另 一 鹿 没 有 被 打开 的 门 ; 

(c) 你 首先 选择 1 号 门 , 当 你 的 朋友 打开 的 是 2 号 空门 , 你 不 改变 主意 . 当 你 的 
朋友 打开 的 是 3 号 空门 你 改变 主意 , 选择 2 号 门 . 
最 好 的 策略 是 什么 呢 ? 现在 计算 在 各 种 策略 之 下 赢得 奖品 的 概率 . 

在 策略 (a) 之 下 , 你 的 初始 选择 会 决定 你 的 输赢 . 由 于 奖品 的 位 置 是 随机 地 确 
定 的 , 你 得 奖 的 概率 只 能 是 1/3. 

在 策略 (b) 之 下 , 如 果 奖 品 的 位 置 在 你 原来 指定 的 门 后 (概率 为 1/3), 由 于 你 
改变 了 主意 , 因而 失去 了 获奖 的 机 会 . 如 果 奖 品 的 位 置 不 在 你 原来 指定 的 门 后 ( 概 
率 2/3), 而 你 的 朋友 又 将 没有 奖品 的 那 一 扇 门 打开 , 当 你 改变 选择 的 时 候 , 你 改变 
选择 后 所 指定 的 门 后 一 定 有 奖品 . 所 以 你 获奖 的 概率 为 2/3. 因此 (b) 比 (a) 好 . 

在 策略 (c) 之 下 , 由 于 提供 的 信息 不 够 充分 , 还 不 能 确定 你 记得 奖品 的 概率 . 答 
案 依赖 于 你 的 朋友 打开 空门 的 方式 . 现在 讨论 两 种 情况 . 
第 一 种 情况 是 : 当 奖 品 的 位 置 是 在 1 号 门 后 , 假定 你 的 朋友 总 是 打开 2 号 空门 
( 当 奖 品 是 在 2 号 或 3 号 门 后 的 时 候 , 你 的 朋友 没有 选择 的 余地 ). 现在 假定 奖品 是 
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在 1 号 门 后 (概率 为 1/3), 你 的 朋友 打开 2 号 门 , 你 不 改 主意 , 你 得 到 奖品 
品 在 2 号 门 后 面 的 时 候 (概率 为 1/3), 你 


的 朋友 打开 


当 奖 
3 号 空门 , 你 改变 主意 , 你 也 


得 到 奖品 ， 当 奖品 在 3 号 门 后 面 的 时 候 (概率 为 1/3), 你 的 朋友 打开 2 号 空门 , 你 


不 改变 主意 ， 
下 , 策略 (c) 与 集 略 (b) 一 样 好 . 


你 就 失去 了 得 奖 的 机 会 . 这 权 


f, 你 获奖 的 概率 为 2/3. 说 明 在 这 种 情况 


第 二 种 情况 是 : 假定 奖品 是 在 1 号 门 后 , 你 的 朋友 随机 地 打开 2 号 门 或 3 号 


门 (概率 各 为 1/2). 当 奖 品 在 1 号 门 后 的 情况 下 (概率 为 1/3), 你 的 朋友 打开 2 号 


门 , 此 时 按 你 的 策略 , 你 不 改 主意 , 得 至 


开 的 是 3 号 空门 , 此 时 你 改变 了 主意 , 失去 了 得 奖 的 机 会 . 如 果 奖 品 是 在 2 号 门 后 


I 了 奖品 (概率 1/6). 但 是 , 如 果 你 的 朋友 打 


(概率 1/3), 你 的 朋友 打开 3 号 空门 , 按 你 的 策 


果 奖 品 是 在 3 号 门 后 (概率 1/3), 你 的 朋友 扩 
意 , 你 就 失去 奖品 . 综合 起 来 , 在 你 的 朋友 这 种 
1/6 十 1/3 = 1/2. 这 时 候 , 策略 (c) 比 策略 (b) 差 . 


各 , 你 改变 主意 , 你 就 赢得 奖品 .如 


2 号 空门 , 按 你 的 策略 你 不 改变 主 
门 策略 之 下 , 你 赢得 奖品 的 概率 为 


1.4 全 概率 定理 和 贝 叶 斯 准则 


十 


本 节 中 我 们 将 讨论 条 件 概率 的 某 些 应 ) 


定理 . 


3 我们 首先 引入 一 个 计算 事件 概率 的 


全 概率 定理 


何事 件 B, 下 列 公式 成 立 


P(B)=P(A1NB)+:.…++P(An NB) 
=P(Ai)P(B|IA1) + :+P(A,)P(B|An). 


,形成 样本 空间 的 一 个 分 割 (每 一 个 
试验 结果 必定 使 得 其 中 一 个 事件 发 生 ). 又 假定 对 每 一 个 i P(A4i) > 0. 则 对 于 任 


图 1.13 形象 化 地 展示 了 全 概率 定 弄 
间 分 割 成 若干 事件 4; 的 并 (A41,… 


;An 形成 


LE 的 内 容 并 给 出 了 证 明 . 3 
fF 本 空间 的 一 个 分 割 ), 然后 任意 事件 


本 衬 


直观 上 , 将 术 


B 的 概率 等 于 事件 B 在 4 发 生 的 情况 下 的 条 件 概率 的 加 权 平 均 , 而 权 数 刚好 等 


于 这 些 事件 4; 的 无 条 件 概率 . 这 条 定 到 


导 计 算 时 , 全 概率 定理 就 成 为 计算 P(B) 的 有 力 工 具 . 应 用 这 条 定理 的 关键 是 找到 
. , An, 而 合适 的 分 割 又 与 问题 的 实际 背景 有 关 . 


合适 的 分 制 41,… 


的 一 个 主要 应 用 是 计算 事件 B 的 概率 . 直 
接 计算 事件 B 的 概率 有 点 难度 , 但 是 若 条 件 概率 P(B|4;) 是 已 知 的 或 是 很 容易 推 
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ANMB 


AIMB 


ANB 


图 1.13 ”全 概率 定理 的 形象 化 展示 和 证 明 . 由 于 事件 41, 42,… , A 形成 样本 空间 的 一 个 分 
制 , 事件 B 可 以 分 解 成 不 相交 的 n 个 事件 的 并 , 即 


B= (A1NMB)U:….U (An NB). 


利用 可 加 公理 , 得 到 


P(B)=P(A1NB)+...+P(An NB). 


利用 条 件 概率 之 定义 , 我 们 得 到 


P(AiN B) = P(Ai)P(B|A;). 
将 上 式 代入 前 一 式 中 得 到 


P(B)= P(A1)P(B|IA1) + +P(An)P(B|A,). 


我 们 也 可 以 用 等 价 的 序 贯 树 形 图 来 说 明 全 概率 定理 ( 右 图 ). 叶子 Ai; nn B 的 概 
率 等 于 由 根部 到 叶子 上 的 概率 的 乘积 P(Ai;)P(B|A;). 而 事件 B 由 图 上 显示 的 3 个 
叶子 组 成 , 将 它们 的 概率 相 加 就 得 到 P(B) 
例 1.13 ”你 参加 一 个 棋 类 比赛 , 其 中 50% 是 一 类 棋 手 , 你 赢 他 们 的 概率 为 0.3; 25%% 
是 二 类 棋 手 , 你 赢 他 们 的 概率 是 0.4; 剩 下 的 是 三 类 棋 手 , 你 赢 他 们 的 概率 是 0.5. 从 
他 们 中 间 随 机 地 选 一 位 棋 手 与 你 比赛 , 你 的 胜算 有 多 大 ? 
记 4; 表示 你 与 i 类 棋 手 相遇 的 事件 . 依 题 意 
P(A1) = 0.5， P(4?) = 0.25， P(43) = 0.25. 

记 B 为 你 赢得 比赛 的 事件 . 我 们 有 

P(B|A1) = 0.3， P(B|A2) =0.4, P(B|A3) = 0.5. 
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这 样 , 利用 全 概率 定理 , 你 在 比赛 中 胜出 的 概率 为 


P(B)=P(A)P(BIA) + P(A2)P(B|A2) + P(A3)P(B|As) 
=0.5.0.3 二 0.25.0.4+0.25.0.5 
= 0.375. 


例 1.14 ”你 抛 丘 一 个 均匀 的 有 4 个 面 的 骨 子 . 如 果 得 到 1 或 2, 你 可 以 再 抛 丘 
次 , 否则 就 停 上 抛 丘 . 你 抛 撕 得 到 的 点 数 总 和 至 少 为 4 的 概率 有 多 大 ? 

记 4; 为 第 一 次 抛 撕 均 匀 骨 子 后 得 到 的 点 数 为 i 的 事件 . 注意 , 对 每 一 个 i 
P(4;) = 1/4. 记 卫 为 抛掷 得 到 的 点 数 总 和 至 少 为 4 的 事件 . 在 41 发 生 的 条 件 下 ， 
只 有 第 二 次 抛掷 得 到 3 或 4, 总 点 数 才能 至 少 为 4 这 样 , 事件 B 的 条 件 概率 为 1/2. 
类 似 地 , 如 果 第 一 次 抛掷 时 4 发 生 , 只 有 当 第 二 次 抛掷 得 到 2、3 或 4 时 , 事件 B 
才 发 生 , 相应 的 条 件 概率 为 3/4. 如 果 第 一 次 抛掷 时 4s 发 生 , 此 时 不 容许 抛掷 第 二 
次 , 在 这 种 情况 下 得 到 的 点 数 总 和 在 4 以 下 “因此 


1 3 
P(BIA1) = 3, P(BIA2) =7, P(BIAs)=0, P(BIAs)=1. 


利用 全 概率 定理 , 得 到 


1 1 13 1 1 9 
0 
在 具有 序 贯 特征 的 试验 中 , 可 以 多 次 重复 地 利用 全 概率 定理 进行 概率 计算 . 下 


面 是 一 个 例子 . 
例 1.15 爱丽 丝 在 上 一 门 概率 课 . 在 每 周 周末 的 时 候 , 她 可 能 跟 上 课程 或 跟 不 上 课 
程 . 如 果 她 在 某 一 周 是 跟 上 课程 的 , 那么 她 在 下 周 跟 上 课程 的 概率 为 0.8( 下 周 跟 不 
上 课程 的 概率 为 0.2). 然而, 如 果 她 在 某 一 周 没 有 跟 上 课程 , 那么 她 在 下 周 跟 上 课 
程 的 概率 变 为 0.4( 下 周 跟 不 上 课程 的 概率 为 0.6). 现在 假定 , 在 第 一 周 上 课 以 前 认 
为 她 是 能 够 跟 上 课程 的 . 经 过 三 周 的 学 习 , 她 能 够 跟 上 课程 的 概率 有 多 大 ? 

令 U; 和 B; 分 别 表示 经 过 i 周 学 习 后 跟 上 和 跟 不 上 课程 的 事件 . 按照 全 概率 
定理 , P(UV3) 可 由 下 式 给 出 


P(Us) = P(UV2)P(Us|UV2) + P(B2)P(Us|B2) = P(U2) :0.8+ P(B2) .0.4. 
对 于 P(U2) 和 P(B2), 又 可 以 利用 全 概率 定理 
P(U2) = P(UID)P(U2|UD) + P(BI)P(U2|B1) = P(V1) 08 十 PUB 0.4， 
P(B2) = P(U1)P(B2o|U1) + P(Bi)P(B2|Bi) = P(U1) :0.2+P(Bi):0.6. 


@ 如 果 第 一 次 抛 搓 时 A4 发 生 , 虽然 不 容许 第 二 次 抛 搓 假 子 , 但 是 你 得 到 的 点 数 总 和 已 为 4. 
一 译 者 注 
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最 后 , 由 于 爱丽 丝 在 刚刚 开始 上 课 的 时 候 是 能 够 跟 上 课程 的 , 我 们 有 
P(D) =0.8, P(Bi) = 0.2. 


从 前 面 三 个 方程 式 解 得 
P(Us) = 0.8 .0.8+ 0.2.0.4= 0.72， 
P(B:) = 0.8.0.2 + 0.2.0.6= 0.28, 


再 利用 关于 P(U3) 的 等 式 , 得 到 

P(Us) = 0.72 .0.8 十 0.28.0.4=0.688. 

我 们 也 可 以 为 计算 P(U3) 构造 一 个 试验 的 序 贯 树 形 图 . 将 随机 事件 U3 进行 分 

解 , 利用 概率 论 的 乘法 与 加 法 规则 计算 P(Vs). 然而 , 有 时 候 , 基于 全 概率 定理 的 计 
算 方 法 更 加 方便 . 例如 , 我 们 希望 计算 经 过 20 周 的 学 习 以 后 , 爱丽 丝 能 够 跟 上 课程 
的 概率 P(U20). 此 时 , 按照 序 贯 树 形 图 进行 计算 十 分 烦琐 , 因为 树 形 图 有 20 层 , 有 
220 个 树叶 . 另 一 方面 , 利用 全 概率 定理 , 得 到 递 推 公式 

P(Uir1) = P(Ui) :0.8 +P(B;):0.4, 

P(Bitr1) = P(Ui) :0.2+P(Bi): 0.6, 
加 上 初始 条 件 P( 恕 ) = 0.8、P(B1) = 0.2 后 , 那么 在 计算 机 上 计算 是 十 分 简便 
的 . 
推理 和 贝 叶 斯 准则 
全 概率 定理 是 与 著名 的 贝 叶 斯 准则 联系 在 一 起 的 . 贝 叶 斯 准则 将 形 如 P(A4|B) 
的 条 件 概率 与 形 如 P(B|4) 的 条 件 概率 联系 起 来 . 


贝 叶 斯 准则 
设 A1, A2,… , An 是 一 组 互 不 相 容 的 事件 , 形成 样本 空间 的 一 个 分 割 (每 一 个 

试验 结果 必定 使 得 其 中 一 个 事件 发 生 ) 又 假定 对 每 一 个 i, P(A;) >0. 则 对 于 任 
何事 件 B, 只 要 它 满足 P(B) > 0, 下 列 公式 成 立 
P(Ai)P(B|A;) 

P(B) 
一 P(4 EC 

P(AI1)P(B|IA1) +:…:+P(A,)P(B|A,) 


P(4ilB) = 


A Oe de Ti oa 因 
为 根据 条 件 概 率 的 定义 它们 都 等 于 P(Ahi Nn B), 这 样 得 到 了 第 一 个 等 式 . 至 于 第 二 
个 等 式 , 只 需 对 P(B) 利用 全 概率 公式 即 可 . 
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贝 叶 斯 准则 还 可 以 用 来 进行 因果 推理 . 有 许多 “原因 
现在 设 我 们 观察 到 某 一 结果 , 希望 推断 造成 这 
A1,… ,A 是 原因 , 而 B 代表 1 
因 ”4; 造成 结果 B 日 


4 [四 


小 \ 


望 反 推 结果 B 是 由 原因 4; 造成 


1.14 


例 1.16 


例 1.9 


原因 1: 
恶性 肿瘤 


一 个 蕴涵 于 贝 叶 
事件 B, 代表 “结果 ”). 我 人 
因 彼 此 不 相 容 ， 


现 的 概率 ( 见 
的 概率 P(Ai|B). P(A4;|B) 为 1 
上 现 的 概率 , 称 之 为 后 验 概率 , 而 原来 的 P(A;) 就 称 为 先 验 概率 . 


原因 3: 
其 他 原因 


MY 


P 的 失 


储 则 


且 造 成 这 个 结果 的 原 


中 瘤 , 原 


大 


我 们 已 经 知道 P 


生 ), 利 


P(Ai|B 


在 右 图 
坚 释 . 


a 


2( 事件 42) 是 
Ai) 和 P(BIA; 
j 贝 叶 斯 准则 , 这 些 原 


二 
个 结果 


原因 引起 的 结果 . P(B|A4;) 表示 在 
图 1.14)， 当 观察 到 结果 B 


” 可 以 造成 某 一 “结果 ”. 
出 现 的 “原因 ”. 现在 设 事件 
因果 模型 中 

的 时 候 , 我 们 希 
于 代表 新 近 得 到 的 


ANMB 


E 论 的 例子 .我 们 在 某 病 人 的 X 光 片 中 发 现 一 个 阴影 
] 希 望 对 造成 这 种 结果 的 三 个 原 


办 


进行 分 析 . 这 三 个 原 


大 


二 
上 自 征 


志和 党 : 原因 1( 事件 是 恶性 


良性 肿瘤 , 原 


P(Ai)P( 


B|Ai;) 


因 3( 事件 4s) 是 肿瘤 
),i 二 1,2,3. 现在 我 们 已 经 发 现 了 阴影 (事件 B 发 
因 的 条 件 概率 为 


的 其 他 原因 . 假定 


)=5 


给 出 了 一 个 序 贯 树 形 


有 深 灰 的 叶子 表示 
概率 P(A1|B) 是 两 个 概率 相 除 的 结果 


第 一 个 深 灰 的 叶子 表示 恶 
才子 中 出 现 阴影 ， 


现在 回 


到 雷达 探测 器 的 例 1.9 和 


P 给 出 的 条 件 为 
P(A) = 0.05, 


图 


,本 


(AW)P(BIA1) + P(A2)P(B|IA2) + P(As)P(B|IAs) 


] 序 贯 树 形 图 给 出 条 
生 肿瘤 并 出 现 阴 影 ， 


其 概率 为 P(B). 而 


i = 1,2,3. 


牛 概率 计算 的 另 一 种 等 价 的 
其 概率 为 P(41 mn B), 且 所 
恶性 肿瘤 造成 阴影 的 条 件 


图 1.9. 记 
4={ 习 机 出 现 }， 
已 ={ 雷 达 报 警 }. 
P(B|A) = 0.99, 


P(B|A®) = 0.1. 
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在 贝 叶 斯 准则 中 令 41 = 4 和 42 = 4°, 得 至 
P( 飞 机 出 现 | 雷达 报警 ) = P(A4|B) 


= 


s P(A)P(BIA) 
~ P(A)P(B|A) + P(A°)P(B|A®) 
0.05 . 0.99 
0.05.0.99 十 0.95.0.1 
~ 0.342 6. 
例 1.17 现在 回 到 例 1.13 的 棋 类 比赛 问题 . 此 处 4; 表示 你 与 i 类 棋 手 相遇 的 事 
件 . 由 例 中 给 出 的 条 件 知 ， 
P(A1) = 0.5， P(42) =0.25, P(A;) = 0.25. 
记 B 表示 你 赢得 比赛 的 事件 , 你 胜出 的 概率 为 
P(Bl41) = 0.3， P(B|A») =0.4, P(B|As) = 0.5. 
现在 假定 你 已 经 得 胜 , 问 你 的 对 手 为 一 类 棋 手 的 概率 P(A1|B) 有 多 大 ? 
利用 贝 叶 斯 准则 得 


P(A1|B) = 


P(ADP(BIAi) 
P(A1)P(B|A1) + P(A2)P(B|A;>) + P(A3)P(B|A;) 
0.5.0.3 
0.5.0.3 十 0.25.0.4 十 0.25.0.5 
一 0.4. 


例 1.18 ( 假 阳 性 之 迷 ) 设 对 于 某 种 少见 的 疾病 的 检 出 率 为 0.95: 如 果 一 个 被 检 
的 人 有 这 种 疾病 , 其 检查 结果 为 阳性 的 概率 为 0.95; 如 果 该 人 没有 这 种 疾病 , 其 检 
查 结果 为 阴性 的 概率 是 0.95. 现在 假定 某 一 人 群 中 患 有 这 种 病 的 概率 为 0.001, 并 
从 这 个 总 体 中 随机 地 抽取 一 个 人 进行 检测 , 检查 结果 为 阳性 . 现在 问 这 个 人 患 这 种 
病 的 概率 有 多 大 ? 
记 4 为 这 个 人 有 这 种 疾病 , B 为 经 检验 这 个 人 为 阳性 . 利用 贝 叶 斯 准则 ， 
P(A)P(B|A) 
P(A)P(B|A) + P(A®)P(B|A®) 
0.001 . 0.95 
~ 0.001.0.95 + 0.999.0.05 
~ 0.018 7. 


尽管 检验 方法 非常 精确 , 一 个 经 检测 为 阳性 的 人 仍然 不 大 可 能 真正 患 有 这 种 疾病 
( 患 有 该 疾病 的 概率 小 于 2%). 根据 《经 济 学 人 》(The Economist) 1999 年 2 月 20 
日 的 报道 , 在 一 家 美国 著名 的 大 医院 中 80% 的 受 访 者 不 知道 这 类 问题 的 正确 答案 ， 
大 部 分 人 回答 这 个 经 检测 为 阳性 的 人 患 病 的 概率 为 0.95! 


P(AIB)= 


[om 


I 这 


30 第 1 章 样本 空间 与 概率 


1.4 节 中 我 们 引入 了 条 件 概率 P(4 
发 生 给 事件 4 带 来 的 信息 . 一 个 有 趣 且 重要 的 特殊 性 


1.5 独 立 


性 
B) 的 概念 . 这 个 条 件 概 率 刻画 了 事件 B 的 


事件 4 带 来 新 的 信息 , 它 没有 改变 事件 4 发 生 的 概率 , 即 


P(A|B) = P(A). 


在 上 述 等 式 成 立 的 情况 下 , 我 们 称 事件 4 是 独立 


的 定义 可 知 P(4|B) = P(4n B)/P(B), 上 式 等 价 于 


我 们 将 后 者 作为 事件 4 和 事件 BB 机 


P(AN B) =P(A)P(B). 
上 互 独立 的 正式 定义 , 其 原 


娃 


伯 


4 况 是 事件 B 的 发 生 并 没有 给 


F B 的 . 注意 , 由 条 件 概率 


因 是 后 者 包括 了 


P(B) = 0 的 情况 , 而 当 P(B) = 0 的 时 候 ，P(4IB) 是 没有 定义 的 ， 在 这 个 关系 


中 4 和 B 具有 对 称 的 地 位 . 


因此 4 痢 


称 4 和 B 是 相互 独立 的 ,或 4 和 B 是 相互 独立 的 事件 . 


人 们 容易 从 直观 判定 独立 怕 


目 互 独立 ， 另 一 方面 ， 
EF 本 空间 中 的 事件 看 出 来 . 通常 认为 , 若 两 个 事件 
牛 4 和 事件 B 互 不 


Hh 并 于 B 部 涵 着 B 独立 于 4. 这 样 我 们 可 以 


E. 例如 , 若 它 们 分 别 是 在 两 个 不 同 的 并 且 没有 相互 
作用 的 物理 过 程 的 控制 下 发 生 的 事件 , 我 们 就 可 以 判定 它们 本 
事件 乙 间 的 独立 性 不 能 直观 地 从 检 
互 不 相 容 , 就 可 以 判定 它们 相互 独立 , 事实 上 , 恰巧 相反 , 若 事 


相 容 , 并 且 P(4) > 0 和 P(B) > 0 成 立 , 则 它们 永远 不 会 相互 独立 ， 


从 而 P(A4NB)=0 关 P(A)P(B). 例如 , 4 和 4 在 P(4) e(0 
立 的 (除非 P(4) = 0, 或 P(4) = 1), 这 是 因为 4 发 4 
不 会 发 生 , 4 的 发 生 与 否 的 确 会 给 事件 A 上 


因为 4 好 = 2 


,1) 的 情况 下 是 不 独 


E 可 以 彤 


的 发 生 与 否 带 来 信息 


例 1.19 ”考虑 连续 两 次 抛掷 一 个 具有 4 个 面 的 对 称 
验 结果 是 等 概率 的 , 每 个 试验 结果 的 概率 为 1/16. 


(a) 事件 


4i ={ 第 一 次 抛 括 后 得 分 ， 


是 否 相互 独 立 ? 我 们 有 


P(AiN Bj) = 


P(Ai) = 


P(B;) = 


4; 中 的 试验 结果 数 


P( 两 次 抛掷 的 结果 是 (5 7) = 二 


4 


_ Bj 中 的 试验 结果 数 


总 的 试验 结果 数 ”16' 


4 


总 的 试验 结果 数 ”16 


和 切 地 


16° 


告诉 你 4* 一 定 


的 仍 子 , 假定 16 种 可 能 的 试 


Bi ={ 第 二 次 抛掷 后 得 六 
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由 于 P(4in Bj) =P(4;)P(Bj), 可 知 hi 与 B; 是 相互 独立 的 . 在 两 次 抛掷 股 子 的 
试验 中 , 离散 的 均匀 概率 律 (等 概率 模型 ) 蕴涵 着 两 次 抛掷 的 独立 性 ， 
(b) 事件 


A = { 第 一 次 抛掷 后 得 1}， B = { 两 次 抛掷 的 总 和 为 四 } 


是 否 相互 独立 ? 这 个 问题 的 答案 不 是 很 明显 . 我 们 有 


两 次 抛 搓 的 结果 为 4,) = 去 ， 


P(ANB)=P 


Pe 


P(A) = 事件 4 中 所 含 的 试验 结果 数 ” 4 
” ”所 有 可 能 的 结果 数 16 


事件 B 由 试验 结果 (1,4、(2,3)、(3,2) 和 (4,1) 组 成 , 因此 


p(B) -事件 B 中 所 合 的 试验 结果 数 _ 4 
”所 有 可 能 的 结果 数 ”16 
这 样 , P(AN B) =P(4)P(B), 即 A 和 B 相互 独立 


(c) 事件 
4 = { 两 次 抛掷 的 最 大 数 为 2}， Bi = { 两 次 抛 丘 的 最 小 数 为 2} 
是 否 相互 独 立 ? 直观 上 看 这 两 个 事件 是 不 独立 的 , 因为 两 次 抛掷 的 最 小 数列 涵 着 两 


次 抛掷 的 最 大 数 的 信息 . 例如 , 如 果 最 小 数 为 2, 最 大 数 不 可 能 为 1. 现在 用 定义 证 
明 它 们 不 独立 . 我 们 有 


Ce 


P(An B) = P( 两 次 抛 撕 的 结果 为 (2,2)) = 二， 


同时 


4 中 的 试验 结果 数 。 3 


人 = 晤 的 试验 结果 籽 一 16， 
p(B) = 3 中 的 试验 结果 数 5 


总 的 试验 结果 数 ”16 


得 到 P(4)P(B) = 15/(16)2. P(A4NnB) 关 P(A4)P(B), 故 它们 并 不 独立 . 

最 后 , 我 们 要 指出 , 若 事 件 4 和 事件 B 相互 独立 , 那么 B 发 生 , 不 会 对 4 的 
发 生 与 否 提 供 任 何 信息 . 同样 , 赁 直观 想象 , B 不 发 生 , 也 不 会 对 4 的 概率 提供 任 
何 信息 . 事实 上 , 我 们 可 以 证 明 , 车 4 和 B 相互 独立 , 则 4 和 Be 也 相互 独立 ( 见 
本 章 后 的 习题 ). 
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1.5.1 条件 独 立 
前 面 已 经 提 到 , 在 给 定 某 事件 的 条 件 下 , 诸 事 件 的 条 件 概 率 形成 符合 要 求 的 概 
率 律 . 因此 我 们 可 以 讨论 在 条 件 概率 律 下 的 独立 性 . 特别 地 , 在 给 定 C 之 下 , 知事 
件 4 和 事件 B 满足 


P(AN BIC) = P(AIC)P(B|IO), 


则 称 4 和 B 在 给 定 C 之 下 条 件 独 立 . 为 了 导出 条 件 独立 的 另 一 个 特征 , 利用 条 件 
概率 的 定义 和 乘法 规则 , 得 到 


P(ANBNMCOC) 
P(O) 
_ P(C)P(BIC)P(AIBNO) 
P(O) 
= P(BIC)P(AIB NO). 


P(ANBIC)= 


比较 前 面 两 组 等 式 的 最 右 端 , 只 要 P(BIC) 关 0, 那么 P(BIC) 这 个 因子 就 可 以 消 掉 ， 
得 到 


P(AIBNC) =P(AIO), 


这 是 条 件 独立 的 另 一 个 等 价 定义 (要 求 P(BIC) 坟 0). 这 个 等 式 说 明 在 给 定 C 发 生 
的 条 件 之 下 , 进一步 假定 B 也 发 生 , 并 不 影响 事件 4 的 条 件 概率 . 

有 意思 的 是 , 4 和 B 两 个 事件 相互 独立 并 不 包含 条 件 独 立 , 反 过 来 也 是 如 此 . 
F 面 请 看 两 个 例子 . 
例 1.20 ”考虑 抛掷 两 枚 均匀 的 硬币 . 这 个 试验 的 4 种 可 能 结果 都 是 等 可 能 的 . 令 


砚 = { 第 一 枚 硬币 正面 向 上 
印 = {第 二 枚 硬币 正面 向 上 }， 
DD = {两 枚 硬币 的 试验 结果 不 同 }. 
事件 和 事件 瑟 是 相互 独立 的 . 但 是 
P(HID) = 3, P(HalD)=3, P(N HalD)=0, 


这 样 , P(Hi 几 21D) 关 P(H11D)P(H21D), 从 而 豆 和 Hs 并 不 条 件 独立 . 

这 个 例子 可 以 推广 . 对 于 任何 概率 模型 , 记 4 和 B 是 相互 独立 的 事件 , C 是 
个 满足 条 件 P(C) > 0、P(4IC) > 0 和 P(BIC) > 0 的 事件 , 并 且 ANnBNC 为 
集 . 这 样 , 由 于 P(4N BIC)=0 和 P(A4|IC)P(BIC) > 0, 4 和 B 不 可 能 条 件 独 立 


凡 | 


1.5 独 


例 1.21 有 两 枚 硬币 , 一 枚 蓝 的 , 一 枚 红 的 . 十 


E 抛 撕 硬 币 之 前 , 先 按 1/2 的 概率 随 


机 地 选 定 一 枚 硬币 , 然后 进行 连续 两 次 独立 地 抛掷 硬币 的 试验 . 人 硬币 是 不 均匀 的 . 
蓝 的 硬币 在 抛掷 的 时 候 以 0.99 的 概率 正面 向 上 . 而 红 的 那 一 枚 硬币 在 抛 撕 的 时 候 


以 0.01 的 概率 正面 向 上 . 


币 以 后 ， 
互 独立 的 事件 . 这 样 


记 B 为 选 定 蓝 色 的 硬币 的 事件 , ; 为 第 i 次 抛掷 时 日 


P(HiN H2|B) = P(Hi|B)P(H2|B) = 0.99 .0.99. 


现 正面 向 上 . 当选 定 硬 
于 我 们 抛掷 硬币 的 时 候 , 两 次 抛掷 的 结果 不 会 互相 影响 , Hl 和 2 是 相 


另 一 方面 , Hi 和 2 并 不 独立 ， 直观 上 , 当 我 们 知道 第 一 次 抛 搓 的 结果 是 正面 向 
上 F, 我 们 就 想到 这 是 一 枚 蓝 色 的 硬币 , 此 时 可 以 预料 到 第 二 次 抛掷 硬币 的 结果 也 是 
正面 向 上 .” 数 学 上 , 可 如 下 证 明 . 利用 全 概率 定理 , 我 们 得 到 

P(Hi) = P(B)P(H1|B) + P(B°)P(H1|B') = > .0.99 十 3 .0.01 = 


由 对 称 性 可 知 P(H2) = 1/2. 但 是 对 于 Hi nH, 利用 全 概率 定理 得 


到 


P(HiN H2) = P(B)P(HiN H2|B)+P(B°)P(HiN 于 |B9) 


= A "UVU, 十 二 ， .01 . .01 之 =. 


这 样 P(HiN 2) 关 P(B)P(Ba), 即 页 和 Hs 是 相互 依赖 的 , 即使 在 给 定 B 的 条 


件 下 是 相互 独立 的 . 
现在 把 关于 独立 性 的 结论 总 结 一 下 . 


独立 性 


。 两 个 事件 4 和 B 称 为 相互 独立 的 , 如 果 它 们 满足 


P(AN B) =P(A)P(B). 


若 B 还 满足 P(B) > 0, 则 独立 性 等 价 于 


P(A|B) = P(A). 


@ 因此 两 次 抛 括 的 结果 是 不 独立 的 . 一 一 译 者 注 
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e。 若 A 与 B 相 互 独立 , 则 4 与 B° 也 相互 独立 . 


。 设 事件 C 满足 P(C) > 0, 两 个 事件 4 和 B 称 为 在 给 定 C 的 条 件 下 条 件 
独立 , 如 果 它 们 满足 


P(AN BIC) = P(AIC)P(BIO). 


车 进一步 假定 P(BNC) > 0, 则 4A 和 B 在 给 定 C 的 条 件 下 的 条 件 独立 
性 与 下 面 的 条 件 是 等 价 的 


P(AIBNC) =P(AIC). 
。 独立 性 并 不 蕴涵 条 件 独 立 性 , 反之 亦 然 . 


1.5.2 ”一 组 事件 的 独立 性 
两 个 事件 的 相互 独立 性 的 概念 能 够 推广 到 多 个 事件 的 相互 独立 性 . 


几 个 事件 的 相互 独立 性 的 定义 


P(n4)- TP(4;) 对 {1,2,… ,中 的 任意 子 集 8 成 立 ， 


i€S 


则 称 41,… , A 为 相互 独立 的 事件 . 


关于 事件 41, 42, 43, 独立 性 条 件 归 结 为 下 列 4 个 条 件 : 


P(A1N 4a) = P(A1)P(A2), 
P(Ai1N As) = P(A1)P(A;), 
P(AzsN As) = P(A2)P(A;), 

P(Ai1N AsN As) = P(A1)P(A2)P(A;). 


前 面 3 个 等 式 说 明 任意 两 个 事件 是 相互 独立 的 , 这 种 性 质 称 为 两 两 独立 . 但 是 第 4 
个 条 件 也 非常 重要 , 它 并 不 是 前 面 3 个 等 式 的 推论 . 反 过 来 , 第 4 个 条 件 也 不 包含 
前 3 个 条 件 . 下 面 两 个 例子 说 明了 这 些 事实 . 


例 1.22 (两 两 独立 并 不 包含 独立 ) ” 设 试验 是 抛 撕 两 枚 均匀 的 硬币 ， 考 虑 下 列 事 
件 : 


Hi = { 第 一 次 扔 得 正面 }， 

瑟 = {第 二 次 扔 得 正面 }， 

D = {两 次 扔 得 的 结果 不 相同 }. 
由 定义 可 知 和 2 是 相互 独立 的 . 现在 证 明 Hl 和 也 是 相互 独立 的 . 注意 到 
P(HINMND) 1/4 1 
P(Hi) 1/2 2 
可 知 DD 与 本 是 相互 独立 的 . D 与 Ho 的 相互 独立 性 可 以 类 似 地 证 明 . 另 一 方面 ， 
由 


P(DIH) = = P(D), 


P(HINH2ND)=0#5:5:5 = P(Hi)P(H2)P(D,), 
可 知 三 个 事件 是 不 独立 的 . 
例 1.23 (等 式 P(4:m 4zm 4s) = P(A1)P(A2)P(As) 不 包含 独立 )” 设 试验 是 
抛掷 两 个 均匀 的 仍 子 (正六 面体 ): 
4 = {第 一 次 扔 得 1、2 或 3}, 
B= {第 一 次 扔 得 3、4 或 5}， 
C = {两 次 扔 得 的 点 数 之 和 为 9}. 


我 们 有 
P(ANB)= #3. =P(A)P(B), 
P(ANO)= 让 #3- 太一 P(A)P(C), 
P(BNO)= 训 #3. =P(B)P(C). 


这 样 3 个 事件 是 不 独立 的 , 并 且 任 何 一 对 事件 也 不 相互 独立 的 . 但 是 下 面 的 等 式 是 
成 立 的 


1 1 
PO 36 2 2 36 


一 组 事件 的 独立 性 的 直观 背景 与 两 个 事件 的 独立 性 是 一 样 的 ， 独立 性 意味 
着 下 面 一 个 事实 : 设 把 一 组 事件 任意 地 分 成 两 个 小 组 , 一 个 小 组 中 的 任意 个 数 的 
事件 的 出 现 与 不 出 现 ， 都 不 会 带 米 妨 一 个 小 组 中 的 事件 的 任何 信息 . 例如 , 事件 
41、42、43、44 是 独立 的 事件 组 , 则 下 面 一 类 等 式 都 是 成 立 的 
P(Ai1U Az|As nN As) = P(AiU ho), 
P(AiU AS|ASN As) = P(A1U 49). 


证 明 可 见 本 章 末 的 习题 . 


36 第 1 章 样本 空间 与 概率 


1.5.3 ”可靠 性 


在 由 多 个 元 件 组 合成 的 一 个 复杂 系统 中 , 通常 假定 各 个 元 件 的 表现 是 相互 独立 
的 . 下 面 的 例子 说 明 做 了 这 样 的 假定 以 后 , 计算 和 分 析 将 变 得 十 分 简单 . 
例 1.24( 网 络 连接 ) ”在 计算 机 网 络 中 , A 和 B 两 个 结 点 通过 中 间 绪 点 C、D、E、F 


相互 连接 ( 见 图 1.15a). 图 
件 运 行 着 , 当 这 个 元 件 失 效 


上 直接 连接 的 两 个 点 i 和 了 7 表示 i 和 j 之 间 有 一 个 元 
时 两 个 点 之 间 就 失去 连接 . 我 们 假定 i 和 j 之 间 具 有 给 


定 的 连接 概率 pi;;. ”假定 各 点 之 间 的 连接 与 否 独 立 于 其 他 各 点 之 间 连 接 与 否 . 问 A 


和 B 之 间 相 互 连 接 的 概率 有 多 大 ? 


(8 
图 1.15 ) 例 1.24 的 网 络 . 箭头 旁边 的 数字 表示 相应 的 结 点 之 间 的 元 件 有 效 的 概率 . (b) 在 


4) (b) 


靠 性 问题 中 由 三 个 元 件 组 成 的 串联 和 并 联系 统 的 图 示 
这 是 一 个 典型 的 系统 可 靠 性 的 估计 问题 . 系统 由 元 件 组 合 而 成 , 而 各 元 件 的 失 


效 与 否 是 相互 独立 的 . 这 些 


“系统 通常 能 够 分 解 成 若干 子 系统 , 而 每 个 子 系统 又 由 若 


干 元 件 组 成 , 这 些 元 件 可 以 
设 系统 由 元 件 1,2,…: 


卫 


以 串联 方式 或 并 联 方式 相互 连接 ( 见 图 1.15b). 
,m 组 成 , 令 p; 为 元 件 i 有 效 (运行 ) 的 概率 . 串联 系统 


只 有 在 所 有 元 件 均 有 效 的 情况 才 是 有 效 的 . 即 


串联 系统 有 效 ) = pip2…… pm 


ey 


在 并 联系 统 中 只 需 诸 元 件 中 


P( 并 联系 统 


现在 匠 


用 XX 一 Y 表示 “由 XX 到 Y 


P(C—B)=1- (1 


有 一 个 元 件 有 效 , 系统 就 有 效 , 即 
有 效 ) = 1 一 P( 并 联系 统 失效 ) 
=1— (1—p1)(l— p2):… (1 — pm). 


到 图 1.15a 的 网 络 连 通 的 概率 (4 和 B 之 间 连 通 的 概率 ) 的 计算 . 我 们 


是 连通 的 ”这 一 随机 事件 . 我 们 有 


—P(C — E 和 E— B)) (1 —-P(C — FA 和 F — B)) 


三 工 一 (1 — pospss)(l — porprs) 


@ 图 1.15a 中 两 个 结 点 之 间 的 箭头 旁边 的 数字 就 是 结 点 之 间 的 连接 概率 . 一 一 译 者 注 


P(A4— CC 和 CB)=P(A—0O) 
P(4 一 D 和 DD-B)=P(A4-—D 


最 后 , 我 们 得 


=1- (1—0.8.0.9)(1— 0.95.0.85) 
= 0.946, 


a 


到 所 需 的 概率 


P(C 一 B) = 0.9.0.946 = 0.851, 
P(D 一 B) = 0.75.0.95 = 0.712. 


P(A4—B)=1-(1-P(4—»C 和 C—B))(1-P(4— D 和 D — B)) 


=1— (1— 0.851)(1 — 0.712) 
= 0.957. 


1.5.4 独立 试验 和 二 项 概率 


现在 设 试验 


一 系列 独立 并 


列 . 当 每 个 


此 处 的 两 和 


论 中 , 我 们 通常 用 抛掷 便 币 的 


的 , 事件 第 


我 们 可 以 用 序 贯 树 形 图 
是 n= 3 的 情况 . 由 于 独立 性 , 不 管 前 面 


阶段 的 小 试验 只 


两 个 结果 


EE 


闻 的 数 . 此 处 “独立 ”意味 着 事件 A1, A2,…… 
4; ={ 第 ;次 抛掷 的 结果 为 “正面 }. 

来 直观 上 刻画 独立 伯 努 利 试 验 序列 . 
的 抛掷 结果 


人 沾 


和 


条 件 概率 都 是 p. 这 机 


纤 


引 


二 


这 个 概率 在 概率 论 中 处 于 十 分 重要 的 地 位 .由 于 任何 包含 次 正面 
概率 都 是 p*(1 一 p)”*, 我 们 


此 处 记号 


正面 , 3 一 k 个 反面 ， 
广 到 任 


取 值 可 以 从 0 变 到 n. 


p(k) = Pn 次 抛掷 中 有 K 次 出 现 正面 )， 


, 任何 具有 个 正面 和 一 


相同 的 小 试验 组 成 , 称 这 种 试验 为 独立 试验 序 
两 种 可 能 结果 的 时 候 , 就 称 为 独立 的 伯 努 利 试验 序列 ， 
可 能 结果 可 以 是 任何 结果 , 例如 “下 雨 ” 和 “不 下 雨 ”. 但 是 
“正面 ”(H) 和 “反面 >(T) 作为 代 
现在 考虑 连续 ”次 独立 地 抛掷 硬币 的 试验 , 每 次 抛 括 的 结果 为 正面 的 概率 为 
p, 其 中 p 是 在 0 和 1 之 


在 学 术 讨 


衣 . 


,An 是 独立 


图 1.16 中 显示 的 
是 什么 , 每 次 抛掷 得 到 正面 的 
f, 每 个 试验 结果 (长 度 为 3 的 正面 和 反面 的 序列 ) 的 
序列 中 的 正面 出 现 次 数 有 关 . 设 试验 结果 中 有 上 天 个 
果 的 概率 为 p*(1 -站 3 这 个 公式 可 以 
| 算 . 在 长 度 为 n 的 独立 伯 努 利 试 验 序列 中 
试验 结果 的 概率 为 p*(1 一 p)”*, 其 中 大 的 

现在 我 们 要 计算 概率 


概率 只 与 
| 这 个 试验 


贝 


可 次 抛掷 便 币 的 试验 结果 的 


个 反面 的 


向 上 的 结果 的 


得 到 
p= (mx 下 下 


上 现 大 次 正面 的 试验 结果 数 . 


() = "次 拓 天 硬币 的 试验 中 
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数 (四 就 是 有 名 的 二 项 式 系数 , 称 为 n 选 的 组 合 数 , 概率 p(k) 就 是 有 名 的 二 项 


概率 . 在 1.6 节 将 介绍 计数 法 , 利用 计数 法 可 以 得 到 


Nn nl 
k=0.1.... 
国 Rn — ED ea 


此 处 记号 让 表示 正 整 数 i 的 阶乘 ， 


=1.2...(i—1).%, 


按 传 统 , 记 0! = 1. 在 本 章 末 的 习题 中 给 出 了 这 个 公式 的 另 一 证 明 . 由 于 二 项 式 概 


率 p(k) 的 总 和 必须 为 1, 这 样 我 们 得 到 二 项 式 公式 


> (za —p)" “=1. 


HHH 概率 一 做 


HTT 概率 =p(1 一 p) 


THH 概率 =y(1 一 p») 


THT 概率 =p(l 一 p)? 
TTH 概率 =p(1 一 p> 


TTT 概率 =p(1 一 pp) 


图 1.16 ”连续 三 次 抛 指 人 硬币 试验 的 序 吐 树 形 图 表示 . 在 树 校 上 已 经 标明 相应 的 条 件 概率 . 
顺序 三 次 抛掷 硬币 的 结果 的 概率 是 在 树 形 图 的 相应 路 径 上 的 条 件 概率 的 乘积 


例 1.25 (服务 等 级 ) ” 设 一 个 互联 网 服务 器 备 有 c 个 刘 


出 


作为 


制 解 调 器 以 满足 个 月 


户 


的 需要 . 设 在 给 定时 刻 , 每 一 个 用 户 相互 独立 地 以 概率 p 需要 与 服务 器 连接 , 当 连 
接 的 时 候 , 服务 器 需要 有 一 个 调制 解 调 器 以 供 使 用 . 现在 的 问题 是 调制 解 调 咒 不 够 


用 的 概率 有 多 大 ? 


[ 


当 同 一 时 刻 需 要 调制 解 调 器 的 用 户 数 多 于 e 的 时 候 , 服务 器 就 不 能 够 满足 用 


户 的 需要 . 它 的 概率 为 


1.6 计 数 法 39 


p= (人 ma -pt 
是 二 项 概率 . 例如 n= 200、p=0.1 和 c= 15, 相应 的 概率 为 0.039 9. 
这 是 一 个 典型 的 满足 用 户 需求 的 设备 规模 问题 . 这 批 用 户 是 一 群 有 具有 相同 需 
求 并 且 独 立行 动 的 用 户 . 现在 的 问题 是 要 选择 服务 设备 的 规模 , 使 得 满足 用 户 需 求 
( 指 所 有 需要 使 用 设备 的 用 户 都 能 得 到 服务 ) 的 概率 超过 给 定 的 门限 值 (有 时 候 , 给 
概率 值 设立 若干 门限 , 称 为 服务 等 级 ). 


1.6 计 数 法 


在 计算 概率 的 时 候 , 通常 需要 数 清楚 有 关 事 件 中 的 试验 结果 数 (或 基本 事件 
数 ). 我 们 已 经 遇 到 两 种 情况 , 需要 这 样 的 计数 法 . 

(a) 当 样 本 空间 Q 只 有 有 限 个 等 可 能 的 试验 结果 , 因此 这 是 一 个 等 概率 模型 . 
事件 4 的 概率 可 由 下 式 给 出 


14) = 全 中 元 素 的 数目 
9 下 元 素 的 数目 
公式 中 涉及 4 和 9 中 元 素 的 计数 问题 
(b) 当 我 们 需要 计算 事件 4 的 概率 , 目 4 中 的 每 一 个 试验 结果 具有 相同 的 概 
率 p(p 已 知 ) 时 , 那么 


P(4) =p. (4 中 元 素 的 数目 ). 


此 时 , 也 涉及 事件 4 中 的 元 素 的 计数 问题 . 前 面 提 到 的 ”次 抛掷 硬币 的 试验 中 出 
现 次 正面 1 (二 项 概率 ) 的 计算 就 是 这 样 一 类 的 计算 问题 . 这 个 概率 
的 计算 过 程 显示 , 每 个 试验 结果 的 概率 的 计算 是 比较 容易 的 , 但 是 要 数 清楚 具有 天 
次 正面 向 上 的 试验 结果 的 个 数 , 却 有 一 些 复杂 . 

计数 问题 原则 上 很 简单 , 但 是 真正 计算 起 来 却 不 简单 . 计数 的 艺术 属于 组 合 数 
学 的 一 部 分 . 本 节 将 介绍 一 些 计 数 的 基本 准则 , 并 将 之 应 用 到 概率 模型 中 经 常 遇 到 
的 计算 问题 
1.6.1 ”计数 准则 

这 是 计数 的 最 基本 的 方法 . 计数 准则 基于 分 阶段 计数 的 原则 , 因此 可 以 借助 序 
贯 树 形 图 进行 计数 . 例如 , 考虑 一 个 由 两 个 相继 阶段 组 成 的 试验 . 第 1 阶段 试验 的 
可 能 结果 为 a1,a2,… ,am, 而 第 2 阶段 的 结果 为 1,52,… ,5,. 这 样 两 阶段 的 试验 
结果 为 所 有 的 有 序 对 (ai oj) = 1,… ,mj = 1,… ,n. 这 些 有 序 对 的 个 数 总 和 为 
mm. 这 种 计数 方法 可 以 进行 推广 个 阶段 试验 的 情况 (也 可 见 图 1.17 的 说 明 ). 
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计数 准则 ” 
考虑 由 7 个 阶段 组 成 的 一 个 试验 . 假设 : 
(a) 在 第 1 阶段 有 ni 个 可 能 的 结 
(b) 对 于 第 1 阶段 的 任何 一 个 结果 , 在 第 2 阶段 有 no 个 可 能 的 结 
(c) 一 般 地 , 在 前 + 一 1 个 阶段 的 任何 一 个 结果 , 在 接 下 来 的 第 7 阶段 有 mr 
个 结果 , 则 在 7 个 阶段 的 试验 中 一 共有 


放 


NIN2 :Nr 


个 试验 结果 . 


mm Th Th 4 


结果 结果 结果 结果 


阶段 1 ”阶段 2 阶段 3 阶段 4 
图 1.17 基本 的 计数 准则 的 序 贯 树 形 图 说 明 . 通过 ” 个 阶段 进行 计数 (图 中 ” = 你) 


Tr 
阶段 有 ni 个 可 能 的 结果 . 前 7 一 1 个 阶段 的 每 一 个 可 能 的 结果 , 在 第 7 阶段 都 对 应 
着 n 个 可 能 结果 . 总 共 的 叶子 数目 为 n1n2:… nx 


A 
第 一 个 


例 1.26 (电话 号 码 数 ) ”电话 号 码 由 7 位 数字 组 成 , 但 第 一 位 不 能 是 0 或 1. 一 共 
有 多 少 个 不 同 的 号 码 呢 ? 我 们 可 以 将 之 看 成 序 贯 地 选择 数字 的 过 程 , 但 每 次 只 选 一 
位 . 总 共有 7 个 阶段 , 第 1 个 阶段 一 共有 8 种 选择 , 从 第 2 阶段 开始 , 每 次 都 从 10 
个 数字 中 任 选 一 个 . 因此 电话 号 码 的 个 数 为 
8.10.10...10= 8.10°. 


6 次 


@ 国内 称 为 “计数 的 乘法 准则 ”或 “乘法 准则 ”, 这 个 名 称 更 通俗 易 懂 . 译 者 注 
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例 1.27 (nm 元 素 集合 的 子 集 的 个 数 ) ” 考虑 一 个 n 元 素 集合 {81, s2,… , sn}. 这 
个 集合 有 多 少 个 子 集 (包括 这 个 集合 本 身 和 空 集 ) 呢 ? 我 们 可 以 用 序 贯 的 方法 选择 
一 个 子 集 . 我 们 可 以 对 每 一 个 元 素 做 一 个 选择 , 并 判断 它 是 否 属于 这 个 子 集 . 这 样 
一 共 分 成 n 个 阶段 , 每 一 个 阶段 有 两 种 选择 . 这 样子 集 的 总 数 为 


2.2...2= 27. 
< 和 < 一 
nn 次 


可 以 对 这 个 计数 准则 做 一 些小 修改 . 对 于 不 同 的 第 一 阶段 的 结果 后 面 可 以 接着 
不 同 的 第 二 阶段 的 试验 , 只 要 各 个 第 二 阶段 的 可 能 结果 的 数目 相同 . 
下 面 我 们 将 讨论 从 n 个 对 象 中 选取 个 对 象 的 计数 问题 . 若 选取 的 对 象 与 次 
序 有 关 , 则 选 出 来 的 一 组 对 象 称 为 排列 , 知 选 出 来 的 一 组 对 象 是 形成 一 个 集合 , 与 选 
取 的 对 象 的 次 序 无 关 , 则 这 一 组 对 象 称 为 组 合 . 以 后 我 们 还 会 讨论 更 一 般 的 分 割 的 
计数 问题 . 所 谓 分 割 就 是 将 n 个 对 象 分 成 多 个 子 集 . 
1.6.2 n 选 排列 


首先 假定 n 个 不 同 的 对 象 组 成 一 个 集合 . 令 是 一 个 正 整 数 ,kk < n. 现在 我 们 
希望 找 出 从 n 个 对 象 中 顺序 地 选 出 大 个 对 象 的 方法 数 , 或 个 不 同 对 象 的 序列 数 . 
作为 第 一 阶段 , 我 们 可 以 从 n 个 对 象 中 任意 选 一 个 . 当 第 一 个 对 象 选 定 以 后 , 在 第 
二 阶段 , 我 们 只 可 能 从 剩 下 的 n 一 1 个 对 象 中 选择 一 个 . 当前 两 个 对 象 选 定 以 后 , 在 
第 三 阶段 , 只 可 能 从 剩 下 的 m- 2 个 对 象 中 选择 一 个 , 等 等 . 最 后 , 当 我 们 选择 第 
个 对 象 的 时 候 ， 只 能 从 剩 下 的 nn 一 (k 一 1) 个 对 象 中 选择 了 . 利用 计数 准则 , 所 有 可 

能 的 序列 数 为 


n(nom1)..(n—ok+1)(n mk):...2.1 
(n—k):...2.1 


n(n m1):…(n—mk+1)= 


nl 
mE 

这 些 序列 称 为 n 取 排列 . 特别 当 =n 的 时 候 , 简称 为 排列 ”, 此 时 所 有 可 

能 的 序列 数 为 
n(n m1):..……2.:1= nl!. 

(在 n 取 % 排列 的 序列 数 公 式 中 令 有 =n, 并 回忆 我 们 已 经 约定 0!= 1. ) 
例 1.28 ”现在 计算 由 4 个 不 同 字母 组 成 的 学 的 个 数 . 这 是 26 选 4 的 排列 数 . 按 
排列 公式 为 


nl 加 26! 


6.25.24.23 一 ; 
i 6 .25 3 = 358 800 


@ 此 处 的 排列 、 组合 和 分 割 在 中 英文 中 均 有 双重 意义 , 一 个 排列 是 指 n 个 元 素 的 一 个 顺序 , 同时 又 可 
以 指 排列 数 nl, 具体 指 哪 种 内 容 要 看 行文 . 译 者 注 
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排列 计数 法 可 以 与 计数 的 乘法 准则 联合 起 来 解决 更 复杂 的 排列 问题 . 
例 1.29 你 有 ni 张 古 典 音乐 CD 盘 , na 张 摇滚 音乐 CD 盘 , ns 张 乡 村 音乐 CD 
盘 . 有 多 少 种 排列 方法 将 这 些 CD 盘 排 在 CD 架 上 , 使 得 相同 种 类 的 CD 盘 是 排 在 
一 起 的 ? 

我 们 将 问题 分 成 两 步 解决 . 首先 选择 CD 稻 类 型 的 次 序 , 然后 选择 每 种 CD 得 
内 部 的 次 序 . 一 共有 3! 种 类 型 次 序 (例如 古典 /摇滚 /乡村 , 乡村 /古典 / 摇 深 等 ), 一 
共有 nil( 或 nzl, 或 nal) 种 古典 (或 摇滚 , 或 乡村 )CD 的 排列 . 这 样 对 每 一 种 CD 类 
型 的 排列 , 有 nilnzlns! 种 CD 盘 的 排列 方式 . 从 而 总 的 排列 方法 数 为 31nilnolnsl. 
现在 假定 , 计划 将 每 一 类 CD 盘 中 选 出 张 (你 原 有 ni 张 i 类 CD) 送 给 你 
的 朋友 . 当 你 送出 盘 以 后 , 你 的 CD 架 上 有 多 少 种 排列 法 ? 这 个 问题 与 没有 送出 时 
的 计算 方法 是 一 样 的 , 只 是 将 mil 换 成 n; 选 ni 一 的 排列 数 即 可 . 所 以 可 能 的 排 
列 数 为 ” 


ni1l n2! n3! 


Fl kal Ral 


1.6.3 ”组 合 


一 共有 nn 个人, 希望 组 织 一 个 个 人 的 委员 会 . 问 有 多 少 种 不 同 的 委员 会 ? 用 
象 的 语言 说 , 给 定 的 n 个 元 素 的 集合 中 有 多 少 种 不 同 的 个 元 素 的 子 集 ? 注意 ， 
形成 尺子 集 不 同 于 形成 n 选 排列 , 因为 在 选择 子 集 的 过 程 中 , 选 出 来 的 大 个 元 
素 之 间 是 没有 次 序 的 . 例如 4 个 字母 4、B、C 和 D 中选 2 个 的 排列 有 12 种 : 


AB, 4C, AD, BA, BC, BD, C4, CB, CD, DA, DB, DO, 
而 这 4 个 字母 的 两 个 字母 的 组 合 有 下 列 6 种 : 


AB, AC, AD, BO, BD, CD. 


(因为 在 组 合 中 元 素 是 没有 次 序 的 , 4B 和 BA 是 无 法 区 别 的 .) 

在 上 面 的 例子 中 , 组 合 实际 上 是 由 排列 归并 而 成 的 . 例如 , 从 组 合 的 观点 看 来 ， 
AB 和 BA 是 不 可 区 分 的 , 它们 都 对 应 于 组 合 4B. 这 种 推导 方法 可 以 推广 到 一 般 
的 情况 : 在 n 个 对 象 取 个 对 象 的 组 合 中 , 每 一 个 组 合 对 应 了 中 个 不 同 的 排列 . 
这 样 n 个 对 和 象 取 个 对 和 象 的 排列 数 nl/(n - 中)! 等 于 组 合 数 乘 以 kl. 因此 , 从 nn 个 
元 素 的 集合 中 选 k 个 元 素 的 组 合 数 为 


nl 
kl(n— EE)! 
现在 回 到 二 项 式 系数 (”) 的 表达 式 . 二 项 式 系数 定义 为 允 次 抛掷 硬币 时 , 正面 
向 上 次 数 为 k 的 可 能 的 试验 结果 数 . 我 们 注意 到 , 确定 一 个 有 次 向 上 的 试验 结果 
@ 在 计算 排列 方法 数 的 时 候 , 要 顾及 各 种 不 同 的 送 CD 盘 的 方法 . 一 一 译 者 注 
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等 价 于 在 所 有 n 次 抛掷 结果 (正面 向 上 或 反面 
此 二 项 式 系数 刚好 等 于 从 ”个 元 素 选择 个 元 素 的 组 合 数 . 这 样 


(WW 


nl 


kl(n— Ek)! 


3 小 
LU 


例 1.30 A、B、.C 和 DD 两 个 字母 的 组 合 数 为 


4! 


结果 与 前 面 列举 的 组 合 数 相 


值得 指出 的 是 , 有 时 候 利 


这 个 同 . 


癌 上 ) 选 出 次 (J 


E 面 向 上 ) 来 . 


计数 法 能 够 导出 一 些 在 代数 上 很 x 


E 证 明 的 公式 . 一 


个 例子 是 1.5 节 讨 论 的 三 项 式 公 式 


> (rt 一 区” “一 


k=0 


作为 特殊 情况 , 当 p= 1/2 时 , 公式 变 成 


TN 
一 27 
9 


Nn 


> 
k=0 

上 式 还 可 以 得 到 新 的 解释 . 由 于 (% 
(2) 对 所 有 的 天 求 和 得 到 这 个 集合 的 所 有 子 集 上 
例 1.31 设 有 一 群 人 , 一 共有 个 . 


n 


的 个 数 , 而 这 个 数 


) 是 元 素 集 合 的 所 有 元 素 子 集 的 个 数 , 将 
刚好 等 于 27. 
现在 要 组 织 一 个 个 人 爱好 俱乐部 , 俱乐部 由 一 


个 主任 和 若干 成 员 组 成 (成 员 人 数 可 为 0). 问 有 多 少 种 方式 组 成 


二 


用 两 种 不 同 的 计数 法 计算 , 从 而 得 到 一 个 代数 恒等式 . 
首先 挑选 一 个 俱乐部 主任 , 一 共有 n 种 不 同 的 选 法 . 然后 从 笨 
员 中 挑选 一 般 成 员 . 实际 上 , 这 n 一 1 人 中 任意 一 个 子 集 , 配 


上 主人 有 


个 人 


\ 乐 部 ? 我 们 


下 的 n 一 1 个 人 
E, 就 成 为 一 个 俱 


乐 部 . 而 不 同 的 子 集 个 数 共 有 2”! 个 . 这 样 一 共有 n2”! 种 不 同 
俱乐部 . 

另外 , 我 们 可 以 这 样 考虑 此 问题 . 首先 选择 个 人 组 成 一 个 

中 选择 一 个 主任 , 组 成 一 个 k 人 俱乐部 . 这 样 一 

乐 部 . 对 所 有 的 有 (k = 1,… ,n), 将 组 成 kk 人 个 

乐 部 的 方式 数 . 由 此 得 到 代数 恒等式 

> 


小 
k= 


AN 


() = n2"-1. 


有 人] 种 方式 组 成 一 个 人 俱 
\ 乐 部 的 方式 数 相 加 , 就 得 到 组 成 俱 


的 方式 组 成 一 个 


人 集体 , 然后 从 
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1.6.4 “分 割 


注意 到 组 合 是 从 n 元 素 集 合 中 选 出 的 一 个 元 素 个 数 为 大 的 子 集 , 因此 可 将 一 
个 组 合 看 成 将 集合 分 成 两 个 子 集合 的 一 个 分 划 , 其 中 一 个 子 集 的 元 素 个 数 为 已 另 
一 个 子 集 为 补 集 , 其 元 素 的 个 数 为 n 一 . 现在 我 们 考虑 将 一 个 集合 分 成 多 于 两 个 
集合 的 分 割 . 

给 定 一 个 元 素 个 数 为 n 的 集合 , 并 设 n1,n2,… ,mr 为 非 负 整数 , 其 总 和 为 n. 
现在 考虑 将 具有 n 个 元 素 的 集合 分 解 成 7 个 不 相交 的 子 集 , 使 得 第 i 个 子 集 元 素 
个 数 刚 好 是 nj. 问 一 共有 多 少 种 分 解 的 方法 . 
现在 分 阶段 每 次 确定 一 个 子 集 . < 有 (”) 种 方法 确定 第 一 个 子 集 . 当 第 
个 子 集 确定 以 后 , 只 剩 下 n 一 ni 个 元 素 可 以 用 来 确定 第 二 个 子 集 . 这 样 在 确定 第 二 
个 子 集 的 时 候 , 一 共有 ("”) 种 方法 , 以 此 类 推 . 对 7 个 阶段 的 选择 过 程 利用 计数 
准则 ,得 到 总 共 的 选择 方 浊 数 目 为 


Tn No—N1 多 一 人 1 一 人 2 只 一 类 
NU nN2 NL3 Nr 


nl (nC— ni1)! i (no—nim nr 1)! 


上 式 等 于 


nn nn) nal(n— ni — no)l mrl( 人 一 md 一 一 Pr Cnr) 


经 过 消去 化 简 , 上 式 等 于 


nl 
72117221 nr! 


这 个 数 称 为 多 项 式 系数 , 并 且 用 下 列 记号 表示 : 


nN 
N11, 722) ,Nr. 


例 1.32 (相同 字母 异 序 词 ) 将 TATTOO 这 个 英文 单词 的 字母 颠倒 排列 可 得 到 多 
少 个 不 同 的 单词 ? 这 里 有 6 个 位 置 供 这 些 字母 去 填充 . 每 一 种 重新 排列 方式 可 以 
看 成 一 个 6 个 位 置 的 分 割 ,分 割 的 一 个 小 组 的 大 小 为 3, 用 于 放置 字母 T, 另 一 个 
小 组 的 大 小 为 2, 用 于 放置 字母 0, 第 三 个 小 组 的 大 小 为 1, 用 于 放置 字母 A. 这 样 
一 共有 


地 


6! 1.2.3.4.5.6 


T1231.1.2.1.2.3— 600 


个 单词 . 

也 可 以 用 另 一 种 方法 导出 这 个 结果 (这 种 方法 也 可 以 用 于 导出 多 项 式 系数 的 
公式 , 见 本 章 后 习题 ). 我 们 将 TATTOO 写成 TIAT2T30102 的 形式 , 假装 这 6 个 
字母 是 不 相同 的 . 这 样 一 共有 6! 种 不 同 的 排列 . 然而 有 3! 种 TiTaTs 的 排列 和 2! 
种 O10 的 排列 形成 同一 个 单词 , 这 样 当下 标 去 掉 以 后 , 一 共有 6!/(3!2!) 个 不 同 的 


单词 . 
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例 1.33 ”一 个 班 由 4 个 研究 生 和 12 个 本 科 生 组 成 . 将 这 个 班 随机 地 分 成 4 个 小 
组 , 每 组 4 人 . 问 每 个 组 刚好 包含 一 个 研究 生 的 概率 有 多 大 ? 这 个 问题 就 是 1.3 节 
例 1.11 的 问题 . 但 是 现在 我 们 要 利用 计数 方法 解答 这 个 问题 . 

首先 应 该 确定 样本 空间 . 我 们 将 分 小 组 的 问题 设想 成 将 16 个 学 生 随 机 地 放 入 
4 个 房间 , 每 个 房间 4 个 人 , 这 是 一 个 分 割 问题 . 由 于 16 个 人 是 随机 地 分 派 到 各 个 
房间 里 去 的 , 故 每 个 分 割 的 概率 是 相等 的 .” 

按照 分 割 的 定义 , 分 割 数 为 


16 \ 16l 
4,4,4,4/ 4444T 


现在 考虑 每 一 个 房间 只 分 配 一 个 研究 生 的 分 割 数 .我 们 可 以 分 两 个 阶段 完成 
学 生 的 分 派 问题 . 

(a) 第 一 阶段 , 将 4 个 研究 生 分 派 到 4 个 房间 中 去 , 每 个 房间 1 人 . 这 是 一 个 
只 有 4 个 人 的 分 割 问题 , 分 割 数 为 4. 

(b) 第 二 阶段 , 将 12 个 本 科 生 分 派 到 4 个 房间 中 去 , 每 个 房间 分 派 3 人 . 这 也 
是 一 个 分 割 问题 , 分 割 数 为 

12 12! 
(83.33.3) - am 


利用 乘法 准则 , 每 个 房间 分 派 1 个 研究 生 和 3 个 本 科 生 的 方法 一 共有 
4!121 
31313131! 
种 . 这 样 , 按 古 典 概 型 的 定义 , 每 个 小 组 分 派 到 一 个 研究 生 的 概率 为 
4!121 


3131313! 
16! 


41414!4! 


经 过 化 简 , 这 个 数 为 
12.8.4 
15.14.13. 


这 个 结果 与 例 1.11 的 结果 相符 合 . 
下 面 是 计数 法 的 汇总 . 


计数 法 汇总 
。 nn 个 对 象 的 排列 数 : nl. 
。n 个 对 象 中 取 个 对 象 的 排列 数 : nl/(n 一 有)!. 


@ 这 样 , 样本 空间 由 全 体 分 割 组 成 , 并 且 概 率 律 是 等 概率 的 . 译 者 注 
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nl! 
kl(n— Ek)! 


。n 个 对 象 中 取 个 对 象 的 组 合 数 : (%) = 
。 将 nn 个 对 象 分 成 7 个 组 的 分 割 数 ， 


nl 


72117221 :nr! 


其 中 第 个 组 具有 mi 个 对 象 : 


1.7 “小 结 和 讨论 
解决 一 个 概率 问题 通常 分 成 下 列 几 个 步 又 : 
(a) 描述 样本 空间 , 样本 空间 是 一 个 试验 
(b) (可 能 不 直接 地 ) 列 出 概率 律 (每 个 事件 的 概率 ); 
(c) 计算 各 种 事件 的 概率 和 条 件 概 率 . 
概率 律 必须 满足 非 负 性 、 可 加 性 和 归 一 性 公理 
要 特例 , 我 们 只 需 列 出 每 一 个 可 能 试验 结果 的 概率 ,而 人 
需 将 组 成 这 个 事件 的 所 有 可 能 的 试验 结果 的 概率 相 加 , 就 得 至 
给 定 一 个 概率 律 , 我 们 经 常 需要 计算 条 件 概率 , 这 是 因为 
分 信息 
有 包含 了 


率 律 之 下 由 条 件 所 确定 的 事件 内 的 事件 才 


. 对 于 试验 


yy 


只 了 


) AN 


的 所 有 可 能 的 试验 结果 的 


F 何 事件 的 概率 的 计算 


以 后 的 概率 计算 问题 . 我 们 也 可 以 将 条 件 概 率 看 成 特殊 的 
E 的 条 但 


四 
个 


结 


的 总 数 有 限 的 习 


1 这 个 事件 的 概率 . 
条 件 概率 涉及 得 到 部 
时 率 律 , 在 这 个 概 
概率 . 条 件 概 率 


可 以 通过 公式 P(4|B) = P(4n B)/P(B) 进行 计算 . 然 T 
用 条 件 概率 来 计算 无 条 件 概率 . 
我 们 已 经 用 例子 说 明了 计算 概率 的 如 下 三 利 
(a) 计数 法 . 这 种 方法 适用 于 


方法 


在 应 ) 


中 , 更 常见 的 是 利 


5 典 概 型 , 即 试验 只 有 有 限 个 可 能 的 试验 结果 , 而 


试验 结果 是 等 可 能 的 . 为 计算 一 个 事件 的 概率 , 只 需 数 清楚 这 
个 数 , 再 除 以 基本 事件 总 数 , 就 得 到 这 个 事件 的 概率 . 

(b) 序 贯 树 形 图 方法 ， 在 试验 具有 序 贯 特征 的 情况 下 , 可 
法 . 这 种 方法 的 关键 是 必须 计算 相应 树 校 事件 的 条 件 概 率 . 这 


个 事件 中 的 基本 事件 


以 利用 序 贯 树 形 图 方 
些 条 件 概率 或 者 是 已 


知 的 或 者 是 利用 各 种 方法 (包括 计数 法 ) 计算 得 到 的 . 利用 乘 
的 事件 的 条 件 概 率 相 乘 , 就 可 以 得 到 相应 事件 的 概率 . 


为 已 知 或 比较 容易 计算 , 然后 利用 全 概率 公式 计算 P(B). 


提高 了 利 
重要 应 上 
括 组 合 、 排 列 等 . 


用 主要 定 开 


进行 计算 的 能 力 . 我 们 引入 了 贝 叶 斯 准 贝 


领域 . 同时 , 为 了 加 强 计算 能 力 , 我 们 讨论 了 计数 方法 


法 规则 将 相应 路 径 上 


(c) 全 概率 公式 . 利用 全 概率 公式 可 以 计算 事件 B 的 概率 P(B), 关键 是 要 找到 
样本 空间 的 一 个 分 割 4i,i = 1,… ,n, 使 得 相应 的 概率 P(4;) 和 条 件 概 率 P(B|A4;) 


最 后 , 我 们 还 讨论 了 若干 问题 , 这 些 问题 或 者 扩大 了 概率 论 的 应 用 范围 , 或 者 


由 这 是 概率 论 的 一 个 
的 一 些 基 本 规则 , 包 


1.1 节 集合 
1. 考虑 搓 一 个 具有 6 个 面 的 骨 子 . 令 事 件 4 为 掷 出 偶数 . 令 B 表示 点 数 大 于 3 的 事件 . 验 
证 下 面 的 德 摩 根 公式 : 


(4UB) =4nB (A4NB)=A UB.. 


2. 设 4 和 B 是 两 个 集合 . 
(a) 证 明 
A =(A°NBU(ANB), B=(ANB)U(A NB’). 


(b) 证 明 
(4nB) =(A NB)U(A NB )U(ANB'). 

(c) 考虑 掷 一 个 均匀 的 、 具 有 6 个 面 的 山 子 . 令 事 件 4 为 掷 出 奇数 . 令 B 表示 点 数 小 
于 4 的 事件 . 求 出 (b) 中 公式 两 边 的 集合 并 验证 集合 等 式 . 

3.” 证 明 恒等式 


AU (N21B,) = N21(AU Bu 


解 若 x 为 左边 的 集合 的 元 素 , 则 有 两 种 可 能 性 ，(i)z € A, 此 时 对 一 切 n > 1,x€ 
AUB,, 从 而 x 属于 等 式 右边 的 集合 ; ( 刘 对 一 切 > 1, x € Bn, 此 时 对 一 切 n >> 1， 
Zz € AU B, 这 样 , x 也 属于 等 式 右边 的 集合 . 
反 过 来 , 若 xz 是 等 式 右边 的 集合 的 元 素 , 说 明 对 一 切 n>1,xeAUB. 若 ze 4， 
显然 x 是 等 式 左边 的 集合 的 元 素 . 若 x 4 4, 此 时 , 对 一 切 n > 1, x 必须 是 B， 的 元 素 ， 
这 再 一 次 证 明 x 是 等 式 左边 的 集合 的 元 素 . 
4.* 康 托 尔 的 三 角 论 证 方法 “指出 单位 区 间 [0, 1] 是 不 可 数 集合 , 即 [0, 1] 中 的 数 不 可 能 排 成 
一 个 数列 . 
解 每 一 个 [0,1] 区 间 中 的 数 , 都 有 十 进 制 表达 式 , 例如 1/3 = 0.3333.…. 注意 , 绝 大 部 
分 数 具 有 唯一 的 表达 式 , 但 也 有 例外 , 例如 1/2 可 以 表 为 0.5000.… 或 0.4999…. 可 以 
证 明 这 些 数 是 仅 有 的 例外 , 即 只 有 结尾 是 无 限 个 0 的 数 或 结尾 是 无 限 个 9 的 数 才 有 两 种 
现在 用 反 证 法 . 假设 所 有 的 [0,1] 区 间 中 的 数 , 可 以 排 成 一 列 , zi zx2, x3,:…, 即 [0,1] 
区 间 中 的 每 一 个 数 都 在 这 个 序列 中 . 考虑 zw 的 十 进 制 表达 式 


1 2 3 
Tn 一 0.Qnanan … ， 


其 中 an 为 集合 {0,1,… ,9} 中 的 一 个 数 . 现在 构造 一 个 数 y, 它 的 第 n 位 小 数 取 成 1 
2, 但 是 它 不 等 于 zn 的 第 nn 位 数 a?,n = 1,2,…. 由 于 y 的 第 nn 位 与 zn 的 第 nn 位 
不 同 , y 与 zn 是 不 同 的 . 这 样 y 不 可 能 在 zi, zz,za… 中 , 与 假设 矛盾 . 从 而 [0, 1] 
区 间 中 的 数 是 不 可 数 的 . 


NI 
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1.2 节 ”概率 模型 

5. 在 一 个 班 上 , 有 60% 的 学 生 是 天 才 , 70% 的 学 生 喜 欢 巧 克 力 , 40% 的 学 生 既 是 天 才 又 喜 
欢 巧克力 . 现在 从 班 上 随机 地 选择 一 位 同学 , 请 问 他 既 不 是 天 才学 生 又 不 爱好 巧克力 的 
概率 有 多 大 ? 

6. 一 个 有 6 个 面 的 人 般 子 是 这 样 设计 的 : 在 抛 指骨 子 的 时 候 , 所 有 偶数 面 出 现 的 概率 比 奇数 
面 出 现 的 概率 大 一 倍 , 不 同 的 偶数 面 出 现 的 概率 是 相同 的 , 不 同 的 奇数 面 出 现 的 概率 也 是 
相同 的 . 现在 将 角子 抛 折 一 次 , 为 这 个 试验 建立 概率 律 , 并 求 出 点 数 小 于 4 的 概率 . 

7. 将 一 个 有 4 个 面 的 角子 持续 地 抛 折 若 干 次 , 直到 第 一 次 出 现 偶 数 面 为 止 . 这 个 试验 的 样 
本 空间 是 什么 ? 

8. 你 参加 一 个 象棋 比赛 , 必须 与 三 个 对 手下 象棋 . 按 规定 , 只 有 赢 两 场 比赛 , 才 算 你 得 胜 . 假 
定 , 与 每 个 对 手 比 赛 的 时 候 , 你 赢 棋 的 概率 是 已 知 的 . 另外 , 你 成 为 得 胜 者 的 概率 与 比赛 
的 次 序 有 关 . 证 明 将 三 位 比赛 对 手中 的 最 弱者 排 在 第 二 位 的 时 候 , 你 成 为 得 胜 者 的 概率 
最 大 , 而 与 其 他 两 位 对 手 的 比赛 次 序 无 关 . 

9. 样本 空间 Q 的 分 割 是 一 组 互 不 相 容 的 事件 组 {51,.… , Sn)}, 满足 条 件 Q = UZ 15S;. 
(a) 证 明 对 任何 事件 4, 下 式 成 立 


n 


P(4) = >_ P(ANS;). 


.= 


(b) 利用 (a) 的 结论 , 证 明 对 任何 事件 4、 和 C, 下 式 成 立 


P(A)= P(ANMB)+P(ANC)+P(ANB NC)—- P(ANBNMO). 


10. 证 明 公 式 


P((ANB°)U(ANB)) = P(A4) +P(B) -2P(AN B), 
这 个 公式 给 出 4 和 B 中 间 恰 有 一 个 事件 发 生 的 概率 . (与 公式 P(A4UB) = P(A4)4+P(B)- 
P(A B) 相 比 较 , 后 者 给 出 4 和 B 中 间 至 少 有 一 个 事件 发 生 的 概率 .) 
11.” 邦 费 罗 尼 不 等 式 . 
(a) 对 于 任何 两 个 事件 4 和 B, 证 明 


P(ANB)> P(A)+P(B)-1. 


(b) 将 上 式 推 广 到 nn 个 事件 4 4A2,… ,4 的 情况 , 证 明 


P(AiN AsN:.: NA) FP(AD)+P(A2) 4+. +P(An)— (n—1). 


解 由 等 式 PL4nB) = PL)+P(B)-P(L4nEB) 和 不 等 式 P(AUB) < 1 立即 可 得 (a). 
至 于 (b), 利用 德 摩根 公式 可 得 到 下 面 的 结果 


1— P(A1NMAsN:::N A,)=P((AiN A NN A,)) 
=P(ATUA2U-:...U A;) 


< P(Af)+ P(AS) 十 :… 十 P(45) 
=(1—P(A1))+(1— P(A2))+:..+ (1— P(A,)) 
=n— P(Ai)— P(A2)—.….— P(A,), 


这 个 公式 可 得 到 (b). 
12.” 容 斥 恒等式 . 将 下 面 的 公式 推广 


P(AUB)=P(A)+P(B) -P(ANB). 


(a) 设 4、B、C 为 三 个 事件 , 则 下 列 恒等式 成 立 


P(AUBUC) = P(A)+P(B)+P(C)-P(ANB)-P(ANC)-P(BNC)+P(ANBNO). 


(b) 设 41, 42,… ,An 为 n 个 事件 . 记 51 = {il < i<n}, Sa = {(i,i2)|1 < 计 < 
iz < n}, 一 般 地 , 令 5;, 为 满足 条 件 1< 计 <ic<…<im <n 的 m 维 指标 
( 订 ,… ,im) 的 集合 , 则 下 列 恒等式 成 立 
RU 1Axk) = > P( P(4 3 = >， Plils NN Ai,) 
i€S1 (i1,i2)ES2 


+ ,P(AiNAinNAis) .+(-1)" P(N.A). 


(i1,i2,i3)ES3 


解 (a) 利用 公式 P(X NY) = P(X) +P(YZ) - P(X NY) 和 集合 等 式 (4U B)NC = 
(A4Nn0C)uU(BNOC) 得 到 


P(AUBUC)= P(AUB)+P(C)—P((AUB)NO) 
=P(AUB)+P(C)—P((ANC)U(BNMO)) 
=P(AUB)+P(C)—- P(ANC)-P(BNC)+P(ANBNMO) 
=P(A)+P(B)— P(ANB)+P(C)—- P(ANC)-P(BNC 

+P(ANBNMO) 
=P(A)+P(B)+P(C)—- P(ANB)- P(ANC)-P(BNC 
+P(ANBNMO) 
(b) 利用 归纳 法 . 其 主要 推断 部 分 可 以 模仿 (a) 中 的 推导 步 又 . 另 一 种 证 明 方法 可 以 参 


考 第 2 章 末 的 习题 . 
13.” 概率 的 连续 性 
(a) 设 41, 4A2,… 是 一 个 单调 递增 的 事件 序列 , 即 对 每 一 个 mw An C 4n+1. 令 4= 
UP14n 证 明 P(4) = lim P(4n) 提示 : 将 4 表示 成 可 数 无 限 个 不 相交 的 事件 
之 和 . 
(b) 设 Ai, 42,… 是 一 个 单调 递减 的 事件 序列 , 即 对 每 一 个 mw 4 D 4n4+1. 令 4= 
mn 和 :4n 证 明 P(4) = lim P(A4w). 提示 : 将 (a) 的 结果 应 用 于 事件 的 补 集 . 
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(c) 考虑 一 个 概率 模型 , 其 样本 空间 是 实数 集合 . 证 明 


P([0, co)) = Jim P([0,n]) 和 lm P(m,co)) = 0. 


了 一 Co 


解 (a) 令 Bl = Ai, 对 n>z2, 令 Bn = An 赂 A%-1. 这 样 定义 的 事件 序列 Bn 是 互 不 
相 容 的 事件 序列 , 并 且 UR_1B4 = An, U 电 1Bx = 4. 利用 可 加 性 公理 得 到 


P(A) = YP(B,) 一 lim DOP(B) = lim P(UR-1B:) = lim P(A;). 


也 一 Co 
有 二 上 k=1 


(b) 令 C= A5 和 C= Ar. 由 于 Art1C An, 可 知 CnC Cnt1, 即 事件 序列 Cn 是 上 
升 的 序列 . 进一步 C = 4° = (NC14n)* = UC1A% = UC1Cn. 将 (a) 用 于 事件 
序列 Cn， 得 到 


1— P(A)= P(A)=P(0) = lim P(G,) = lim (1— P(A,)), 


n—o00 有 一 Co 


此 可 得 结论 : P(A) = lim P(A4,). 
(c) 令 4% = [0,n] 和 A = [0,o0), 利用 结论 (a), 可 得 第 一 个 等 式 . 至 于 第 二 个 等 式 , 只 
需 令 An = [n,oo] 和 4= nt?i4n = 8, 再 利用 结论 (b), 就 可 以 得 到 第 二 式 . 


1.3 节 ”条 件 概率 


14. 将 一 个 均匀 的 具有 6 个 面 的 骨 子 连续 抛 扩 两 次 . 36 个 可 能 的 结果 是 等 概率 的 . 
(a) 找 出 抛 固 出 “一 对 ”的 概率 ; 
(b) 已 知 抛掷 得 到 的 点 数 总 和 小 于 或 等 于 4, 求 抛掷 出 “一 对 ”的 概率 ; 
(c) 求 出 至 少 一 个 鹏 子 得 6 点 的 概率 ; 
(d) 已 知 抛 撕 得 到 两 个 角 子 的 点 数 不 同 的 条 件 下 , 求 出 至 少 一 个 骨 子 得 6 点 的 概率 . 
15. 将 一 枚 硬币 抛掷 两 次 . 爱丽 丝 声 称 在 已 知 头 一 次 得 到 正面 朝 上 的 条 件 下 , 抛掷 得 到 两 次 正 
面 的 可 能 性 比 已 知 两 次 中 至 少 有 一 次 正面 朝 上 的 条 件 下 的 可 能 性 大 . 这 个 结论 对 吗 ? 当 
硬币 为 对 称 和 不 对 称 的 条 件 下 结论 会 不 会 不 同 ? 能 不 能 将 爱丽 丝 的 推论 方法 推广 呢 ? 
16. 我 们 一 共有 三 枚 硬币, 其 中 一 枚 的 两 面 都 画 有 正面 的 图 像 , 另 一 枚 的 两 面 都 画 有 反面 的 图 
像 , 而 第 三 枚 硬币 是 正常 的 硬币 , 两 面 的 图 像 刚 好 是 一 正 一 反 . 现在 从 中 随机 地 抽取 一 枚 
硬币 进行 抛掷 , 得 到 正面 朝 上 , 现在 问 这 枚 硬币 的 另 一 面 画 有 反面 图 像 的 概率 有 多 大 ? 
17. 有 一 批 产品 共 100 件 . 按 规定 , 从 中 随机 地 抽取 4 件 产品 进行 检查 , 只 要 这 4 件 产品 中 
有 一 件 不 合格 , 就 拒绝 这 批 产品 . 如 果 这 批 产 品 中 含有 5 件 不 合格 品 , 这 批 产 品 被 拒绝 的 
18. 令 4 和 B 是 两 个 事件 . 假定 P(B) > 0, 证 明 P(AN BIB)= P(A4|B). 


1.4 节 ”全 概率 定理 和 贝 叶 斯 准则 


19. 爱丽 丝 在 一 个 文件 柜 中 寻找 她 的 学 期 报告 ,她 的 文件 柜 有 若干 个 抽 居 . 她 知道 她 的 学 期 
报告 在 第 7 个 抽 居 的 概率 为 zj( 大 于 0). 由 于 抽 层 很 乱 , 即使 学 期 报告 真 的 在 第 i 个 抽 
层 内 , 爱丽 丝 在 第 ;个 抽 屠 内 找到 学 期 报告 的 概率 为 d;. 现在 假定 爱丽 丝 在 茶 个 抽 慑 内 


Nl 


习 题 51 
找 , 不 妨 设 在 第 i 个 抽 慑 内 找 , 而 没有 找到 . 证 明 在 这 个 事件 发 生 的 条 件 下 , 她 的 学 期 报 
告 在 第 7 个 抽 层 内 的 概率 是 
Tpa’ Ei 下 
20. 弱者 利用 策略 在 比赛 中 获 利 . 鲍 里 斯 准备 与 一 位 对 手 进行 两 局 的 象棋 比赛 . 他 希望 找 出 


21. 


22. 


23. 


24. 


25. 


好 的 策略 以 提高 他 赢 的 概率 . 每 局 棋 的 结果 有 三 种 可 能 : 说 , 输 , 平局 . 如 果 在 两 局 以 后 
的 积分 相等 , 以 后 就 采用 突然 死亡 法 , 一 直 打 下 去 , 直到 一 方 赢得 一 局 , 从 而 决定 比赛 的 
胜 负 . 鲍 里 斯 有 两 种 不 同 的 下 棋 风 格 , 保守 的 和 进攻 的 , 并 且 鲍 里 斯 在 每 一 局 都 能 自如 地 
决定 采用 其 中 的 一 种 风格 , 而 与 前 一 局 的 风格 无 关 . 当 采 用 保守 的 风格 时 , 和 局 的 概率 为 
pa(pa > 0), 输 的 概率 为 1 一 pa， 当 采用 进攻 的 风格 时 , 他 赢 的 概率 为 pw， 输 的 概率 为 


同 的 风格 . 
(a) 找 出 下 
(i) 
但) 


(b) 


列 
在 第 
在 第 一 、 二 局 采 
(过) 只 要 他 的 分 数 领 
若 pw < 1/2, 那么 不 
策略 (iii) 的 时 
怎样 解释 这 种 
两 个 人 轮流 从 一 个 钢 子 中 随机 地 


亡 阶 段 总 


几 种 策略 下 , 鲍 里 


3 
采用 
7 下 
采用 


攻 的 风格 , 但 是 在 第 


局 可 以 随意 采用 不 


且 
全 


的 概率 : 


折 得 胜 


进攻 风格 ; 


、 二 局 米 


保守 风格 ; 


现象 ? 


铅 子 


管 采取 什么 风格 , 鲍 里 斯 均 是 
医 , 鲍 里 斯 可 以 有 好 于 50% 


EE 取出 白 球 者 为 胜 . 为 计算 第 一 个 取 球 者 获胜 


用 保守 风格 , 其 他 情况 采用 进攻 风格 . 
个 游戏 中 的 弱者 . 证 明 当 
的 赢 棋 机 会 (依赖 于 pw 和 pa 的 


这 
) 你 


TH 


8 一 个 球 , 铅 子 里 放 丰 白 球 和 n 个 黑 球 . 首先 从 
的 概率 , 导出 一 个 递 推 公式 . 


mm 个 


到 


一 共有 大 个 人 
放 到 1 
馆子 太 中 随 
是 一 样 的 , 即 


难 子 2 中 , 再 
也 取出 一 个 球 . 证 


着 子 ， 每 个 饶 子 中 有 


m 个 白 球 和 m 个 黑 球 , 将 包子 1 中 随机 地 取出 一 个 球 


寺 
m/(n+m). 


目的 
子 的 ) 
玲子 中 ， 


让 泪 党 他 和 中 


诉 
将 变 成 1/2.” 


两 个 信封 之 谜 . 你 


看 守 拒 绝 


你 这 个 信息 ， 


共有 两 个 馈 子 , 最 初 两 个 镀 子 中 含有 相等 个 数 的 球 . 现在 进行 
芥子 中 随机 地 拿 出 一 个 球 放 到 对 方 的 缸 子 中 去 . 经 过 4 次 这 样 的 交换 以 后 , 两 个 
人 大 态 保持 不 变 的 概率 是 多 少 ? 所 谓 状态 保持 不 变 即 原 来 


人 的 难题 . 已 知 三 个 犯人 


的 身份 是 保密 的 . 其 中 一 个 犯人 要 求 看 守 人 告诉 他 , 在 他 


在 负 子 2 中 随机 地 取出 一 个 球 放 到 铅 子 3 中 , 如 此 往复 , 直到 最 后 , 从 


明 最 后 取出 的 球 是 白 球 的 概率 与 第 一 次 取出 白 球 的 概率 


次 球 的 交换 , 即 同时 从 


在 哪个 急 子 的 球 还 是 在 哪 


P 有 两 个 犯人 将 要 被 释放 , 但 在 事情 还 未 公布 之 前 , 被 释放 犯 
的 两 个 狱 友 中 哪 一 个 将 被 释 


他 的 要 求 , 理 


将 在 你 和 妃 


如 下 :在 现 有 的 信息 之 下 , 你 被 释放 的 概率 为 2/3. 我 车 
一 个 犯人 之 间 确 定 哪 一 个 人 被 释放 , 所 以 你 被 释放 的 概率 就 


一 


这 个 看 守 所 丈 


I 理 


的 错误 在 哪里 ? 


单位 ), 但 


zz - 合 - 品 


个 信封 
你 随机 地 打开 


内 


个 


= 
意 , 决 


丰 持 万 


概率 超过 1/2. 


改 到 两 个 信封 ， 
的 钱 数 是 不 相同 的 . 两 个 
一 个 信封 以 后 , 这 个 信封 中 的 钱 就 
窒 封 中 的 钱 . 


有 若干 钞票 , 钞票 的 数目 都 是 整数 (以 元 为 
说 封 内 的 钱 数 可 以 认为 是 未 知 的 常数 ， 当 
是 你 的 了 . 为 了 多 拿 钱 . 你 还 可 以 改变 主 


朋友 声称 有 一 个 集 略 , 可 以 使 拿 到 钱 数 较 大 的 信封 的 


每 个 信封 内 


个 朋 


其 方 法 如 下 : 你 连续 地 抛掷 一 枚 便 


币 , 直到 出 现 正面 出 现 为 止 , 令 X 为 你 
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抛掷 硬币 的 次 数 再 加 上 1/2. 如 果 你 头 一 次 打开 的 信封 里 的 钱 数 少 于 X, 你 就 换 信 封 , 否 
则 不 换 . 人 
26. 归纳 法 的 悖 论 . 考虑 一 个 命题 , 但 不 知道 命题 的 真 伪 . 如 果 我 们 看 到 许多 例子 与 这 个 命题 
相 匹 配 ， 门 就 增加 了 对 这 个 命题 为 真 的 信心 . 这 些 推 论 方法 称 为 (从 哲学 意义 上 ， 
不 是 从 数学 上 的 ) 归纳 推论 法 . 现在 考虑 一 个 命题 “所 有 的 母 牛 是 白色 的 ”. 其 等 价 的 命 
题 为 “ 凡 不 是 和 白色 的 就 不 是 母 牛 ”. 当 我 们 观察 到 几 只 黑色 的 乌鸦 的 时 候 , 我 们 的 观察 显 
然 与 这 个 命题 是 相 适 应 的 . 但 是 这 些 观 察 会 不 会 使 得 命题 “所 有 的 母 牛 是 白色 的 ”为 真 
的 可 能 性 更 大 一 些 呢 ? 
为 分 析 这 种 情况 , 我 们 考虑 一 个 概率 模型 : 
4 :所 有 的 母 牛 是 白色 的 ， 
A : 50% 的 母 牛 是 白色 的 . 
令 p 是 事件 4 发 生 的 先 验 概率 P(A). 我 们 分 别 以 概率 g 和 1 - 9 观察 一 头 母 牛 和 一 只 
乌鸦 . 这 个 观察 与 4 是 否 发 生 是 独立 的 . 假设 0<p<1,0<g<1, 并 且 所 有 的 乌鸦 是 
黑色 的 . 
(a) 给 定 事件 B = {观察 到 一 个 黑色 的 乌鸦 }, 求 P(A4|B) 的 值 ; 
(b) 给 定 事件 C = {观察 到 一 头 白 色 的 母 牛 }, 求 P(4|O) 的 值 . 
27. 爱丽 丝 和 鲍 勃 一 共有 2n + 1 枚 对 称 的 硬币 . 饱 勃 连续 抛 括 了 即 十 工 枚 硬币 , 而 爱丽 丝 抛 
掷 风 枚 硬币 . 证 明 鲍 勃 抛 出 的 正面 数 比 爱丽 丝 抛 出 的 正面 数 多 的 概率 为 1/2. 
28.” 关 于 条 件 概率 的 全 概率 公式 . 设 OC1,… ,Cn 为 n 个 互 不 相 容 的 事件 ， 形成 样本 空间 
的 一 个 分 割 . 令 4 和 B 是 两 个 事件 , 满足 P(BN Ci) > 0 对 一 切 i 成立 . 证 明 下 式 成 立 
P(A|B) = > CilB)P(AIB NC;). 
解 首先, 下 式 成 立 有 
P(4nB)=> PC4nB)ncCo)， 
a 
利用 乘法 规则 得 到 
P((ANB)NGC)= P(B)P(Ci|B)P(AIBN Co)， 
综合 两 个 等 式 得 到 
P(ANB) = D(a) P(GCi|B)P(AIBN OG;), 
上 式 两 边 除 以 P(B) 并 利用 公式 P(4|B) = P(A B)/P(B), 就 可 以 得 到 关于 条 件 概率 
的 全 概率 公式 . 
29.* 设 4, B 为 两 个 事件 , 满足 P(4) > 0 和 P(B) > 0. 我 们 称 事件 B 暗示 事件 4, 如 果 它 
们 满足 P(A4|B) > P(A); 车 它们 满足 P(A4|B) < P(4) 则 称 事件 B 并 不 暗示 事件 4. 
(a) 证 明 事 件 B 暗示 事件 4 的 充 要 条 件 是 事件 4 暗示 事件 B. 
(b) 假设 P(B*) > 0. 证 明 B 暗示 4 的 充 要 条 件 是 B° 不 暗示 4. 


(c) 


(b) 


(c) 


村 


假定 我 们 已 经 知道 一 个 宝物 藏匿 于 两 个 地 点 之 一 , 其 概率 分 别 为 6 和 1 一 6. 假定 
已 知 这 个 宝物 藏匿 于 第 一 个 地 点 , 在 那个 地 点 进行 发 掘 , 找到 它 的 概率 为 p > 0. 现 
在 证 明 , 假定 我 们 在 第 一 个 地 点 进行 发 掘 , 而 没有 找到 这 个 宝物 , 这 个 事件 “暗示 ” 
宝物 在 另 一 个 地 点 . 
a) 利用 等 式 P(A|B) = P(A4NB)/P(B) 可 知 , B 暗示 4 的 充 要 条 件 是 P(A4NB) > 
(4)P(B), 利用 对 称 性 可 知 , 这 个 条 件 也 是 4 暗示 B 的 充 要 条 件 . 


于 P(B) 十 P(B°) = 1, 我 们 有 


Pe 


ee 


P(B)P(A) + P(B°)P(A) = P(A) = P(B)P(A|B) +P(B°)P(AIB’), 
这 个 等 式 蕴涵 
P(B')(P(A) -P(AIB')) = P(B)(P(AIB) -= P(A)). 


这 样 , P(A|B 
并 不 上 暗示 A). 
设 A 和 B 由 


一 P(A) > 0(B 上 暗示 4) 成 立 的 充 要 条 件 为 P(A) 一 P(A4|B°) > 0(B° 


下 式 给 出 


在 第 一 个 地 点 并 未 发 现 宝物 }. 


利用 全 概率 公式 , 我 们 得 到 
P(B)= P(A)P(BIA) + P(A)P(BIA) = (1 — 7p)+(1—D), 


P(ANB) 1-b 
be pp 


这 说 明 B 暗示 A. 


{= 


>1 
1— bp 


1.5 节 ”独立 性 


30. 


31. 


有 一 天 , 猪手 带 


他 的 两 头 猎犬 跟踪 菜 动 物 的 踪迹 . 他 们 来 到 一 个 三 兮 


猎犬 会 相互 独立 


两 头 猎犬 选择 同 


也 以 概率 p 找到 正确 的 方向 . 因此 他 让 


一 方向 , 他 就 沿 着 这 个 方向 走 . 若 


选择 一 个 方向 走 . 这 个 策略 是 否 比 只 让 一 条 猎犬 选 择 方向 优越 ? 


在 噪声 通道 中 的 通信 . 一 串 二 进 制 信号 (0 或 
传送 信号 0, 以 概率 1 一 p 


丢 送 信号 1. 错误 传输 的 概率 分 别 为 eo 和 el( 见 图 


输 中 , 不 同 信 号 的 误差 是 相互 独立 的 . 


(a) 问 能 够 正确 地 传送 一 个 随机 地 选择 的 第 大 个 信号 的 概率 有 多 大 ? 
(b) 假定 传送 的 信号 串 为 1011, 这 个 信号 串 能 够 被 正确 地 传输 的 概率 有 多 大 ? 


(c) 为 了 提高 传输 的 可 靠 性 , 每 个 信号 重复 传输 3 次 , 译 码 规则 采 
之 , 在 传送 
服从 多 数 的 原则 , 例如 


成 信号 1. 


多 数 决 定制 . 


祝 号 0(1) 的 时 候 , 实际 上 传送 的 是 000(111). 在 译 码 的 时 候 , 采 / 


. 猎手 知道 两 条 
条 猎犬 选 择 它们 的 方向 . 
头 猫 犬 选择 不 同 的 方向 , 他 就 随机 地 


如 果 


1) 在 噪声 通道 内 传输 . 假设 通道 以 概率 p 
1.18). 


在 传 


换 言 


改 到 的 信号 为 010, 则 译 成 信号 0, 若 收 到 的 信号 为 110, 则 译 
作 了 这 样 的 编码 和 译 码 的 规定 以 后 , 信号 0 被 正确 传输 的 概率 有 多 大 ? 
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32. 


33. 


34. 


35. 


36. 


(d) 
(e) 


在 (c) 中 , eo 为 何 值 才 能 使 信号 0 被 正确 传输 的 概率 增 大 ? 
假设 编码 和 详 码 的 规则 采用 (c) 中 的 规定 . 当 接 收 端 得 到 101 的 时 候 , 对 方 发 信号 
0 的 概率 有 多 大 ? 


0 ( 


图 1.18 二 进 制 通信 通道 中 的 传输 误差 概率 


国王 的 兄弟 姐妹 . 国王 只 有 一 个 兄弟 或 姐妹 , 那么 国王 有 一 个 兄弟 的 概率 有 多 大 ? 此 处 假 
定 国王 的 母亲 生男 或 生 女 的 概率 为 1/2, 而 且 各 次 生育 是 相互 独立 的 . 注意 回答 此 问题 的 


时 候 ， 


你 必须 说 清楚 附加 的 假设 . 


利用 有 偏 的 硬币 作出 无 偏 的 决策 . 爱丽 丝 和 鲍 勃 想 利 用 一 枚 均匀 的 硬币 来 决定 0 


歌剧 还 


是 看 电影 . 不 幸 的 是 , 他 们 只 有 一 枚 有 偏 的 硬币 (而 且 他 们 并 不 知道 偏 的 程度 ). 怎 


样 利 


一 枚 有 偏 的 硬币 作出 无 偏 的 决策 , 即 以 1/2 的 概率 看 电影 , 1/2 i 


个 


包子 系统 由 许多 相同 的 元 件 构成 . 每 个 元 件 有 效 的 概率 为 p, 并 且 各 元 件 之 间 是 否 有 


效 是 相互 独立 的 . 这 些 元 件 由 三 个 子 系统 构成 ( 见 图 1.19). 这 个 系统 称 为 有 效 的 , 如 果 


在 图 中 由 4 到 B 有 一 条 通路 , 且 通 路 上 每 一 个 元 件 是 有 效 的 . 这 与 图 中 的 三 个 子 系统 同 


时 有 效 是 等 价 的 . 三 个 子 系统 同时 有 效 的 概率 有 多 大 ?” 


图 1.19 一 个 由 许多 相同 元 件 构成 的 系统 , 是 三 个 子 系统 串联 而 成 ， 这 个 系统 称 为 有 效 


的 , 如 果 存 在 由 4 到 B 的 一 条 通路 , 且 通 路 上 的 每 一 个 元 件 都 是 有 效 的 
k 的 系统 的 可 靠 性 . 一 个 系统 由 n 个 相同 元 件 组 成 , 其 中 每 一 个 元 件 有 效 的 概率 为 


D, 并 


其 他 元 件 有 效 与 否 是 相互 独立 的 . 这 个 系统 称 为 n 选 系统 , 如 果 这 n 个 元 件 中 


至 少 有 大 个 元 件 有 效 , 那么 这 个 系统 才 有 效 . 这 个 n 选 系统 有 效 的 概率 有 多 大 ? 


个 


有 力 供 应 系统 从 n 个 电厂 得 到 电力 供应 城市 用 电 . 由 于 种 种 原因 , 电厂 i 以 概率 pi; 


中 汤 
(a) 


(b) 


供电 , 而 且 各 电厂 之 间 是 相互 独立 的 . 
假定 每 个 电厂 在 供电 的 时 候 能 够 单独 供应 全 市 的 用 电 . 问 这 个 城市 处 于 全 
概率 有 多 大 ? 
假定 有 两 个 以 上 电厂 供电 的 时 候 , 才能 避免 全 市 停电 . 问 全 市 停电 的 概率 有 多 大 ? 


了 停电 的 


@ 这 


个 概率 也 是 整个 系统 有 效 的 概率 . 一 一 译 者 注 


i 


习 题 55 
37. 有 一 个 手机 服务 系统 , 它 有 ni 个 电话 用 户 (有 时 候 需 要 电话 连接 ) 和 no 个 数据 用 户 (有 


38. 


39. 


40. 


41. 


42.” 


j 户 需要 系统 服务 的 概率 为 pl， 


户 的 需求 是 相互 独立 的 . 
户 的 数据 传输 率 为 r。 比特/ 秒 .而 手机 


已 知 一 个 电 


岂 们 各 自 赢得 一 个 


个 洞 的 输赢 是 相互 狐 


时 候 需 要 数据 连接 )， 我 们 估计 在 给 定 的 时 刻 , 每 个 电话 | 

每 个 数据 用 户 需要 系统 服务 的 概率 为 zz. 假定 各 

话 用 户 的 数据 传输 率 为 mr: 比特 / 秒 , 一 个 数据 

服务 系统 的 容量 为 ec 比特 / 秒 . 用 户 的 需求 超过 系统 容量 的 概率 是 多 少 ? 
点 数 问题 . 泰 里 思 和 温 迪 在 玩 18 个 洞 的 高 尔 夫 球 , 奖金 为 10 元 钱 . 1 
洞 的 概率 分 别 为 p( 泰 里 思 ) 和 1 一 p( 温 迪 ), 并 且 各 

洞 的 时 候 , 他 们 的 比分 为 4:6, 温 迪 占 上 风 . 此 时 泰 里 思 接 到 一 个 紧急 
作 . 他 们 决定 按照 他 们 打 完 比赛 时 


前 10 个 洞 的 比分 4:6 
泰 里 思 应 得 10p7/ 
少 钱 ? 


的 条 件 


恬 原 得 比赛 的 概率 分 割 奖金 . 假定 pr (pw) 


下 , 完成 18 个 洞 的 比赛 后 泰 旦 
DT 十 pw) 元 , 而 温 迪 


E 思 ( 温 迪 ) 


立 的 . 于 
8 话 , 必须 回 单位 工 


领先 的 概率 , 则 


完 10 个 


必 表 在 上 


应 得 10pw/(pr 十 pw) 元 . 泰 上 


对 此 问题 ， 
志 的 条 件 


有 法 和 与 概率 有 关 的 研究 课 
区 ,这 使 教授 很 苦恼 . 她 决定 着 n 个 学 生 中 


日 晤 页 


注 ”这 是 著名 的 点 数 问 题 的 一 个 例子 . 这 个 问题 在 概率 论 发 
FE 用. 这 是 舍 瓦 利 耶 . 德 梅 雷 于 17 世纪 向 帕斯卡 提出 的 贱民 


各 


UD 


和 斯 卡 提 出 这 样 的 想法 : 赌 本 分 割 问题 应 当 按 中 断 
概率 进行 分 配 .帕斯卡 在 某 些 特殊 的 情况 下 解决 了 这 个 问题 
马 的 通信 激发 了 更 多 的 想 
有 一 个 班 的 学 生 的 出 勤 率 很 


个 时 就 


不 上 课 . 现在 假定 各 个 学 生 独 立地 决定 自 


生出 勤 的 概率 为 po, 在 坏 天 气 的 


己 是 否 出 勤 , 在 好 天 气 的 
日 子 里 , 每 个 学 生出 勤 的 概率 为 p。, 现在 假定 某 一 天 是 


坏 天 气 的 概率 为 已 知 , 计算 这 位 教授 在 这 一 天 能 够 讲课 的 概率 . 


有 一 枚 不 均匀 的 硬币 , 在 抛 撕 
qn 为 n 次 独立 抛 撕 后 得 到 侦 数 次 
公式 导出 on 的 公式 


式 , 并 利 


递 推 


qn = (1 + (1— 2p)") /2. 


设 在 一 个 轮子 上 其 有 连 


去 刻度 , 不 妨 设 刻度 的 范围 


个 数 . 现在 设 有 无 穷 多 个 人 参加 这 个 游戏 , 第 i 个 人 转动 以 后 , 得 到 一 个 数 . 只 有 
小 的 那个 人 留 下 来 . 假设 每 次 转动 都 相互 独立 ， 
时 刻 . 对 任意 w 计算 P(N = n). 


的 时 候 , 正面 出 现 的 概率 为 p, 反面 出 现 的 概率 为 1 一 p. 令 
E 面 向 上 的 概率 . 导出 一 个 联系 gs, 和 qn_1 的 递 推 公 


b 勤 人 数 少 于 
日 子 里 , 每 个 学 
=} 


有 思 应 该 分 得 多 


展 历史 上 起 着 很 重要 的 
断 情 况 下 赌 本 的 分 审问 
的 条 件 下 双方 各 自 赢得 


并 且 通 过 与 费 


为 (0,1). 每 次 转动 这 个 轮子 , 得 到 一 


没有 平 


赌 徒 破产 问题 . 


解 用 4 表示 以 累计 钱 


个 赌 徒 ; 
钱 , 以 概率 1 一 p 输 1 元 钱 . 
钱 数 为 n 元 的 时 候 , 他 就 停止 押 注 . 


开始 押 注 直 


数 为 n 元 


钱 的 事件 . 
率 公式 


wx = P(AIF)P(F)+P(AIF')P(F) = pP(AIF) + gqP(AIF®), 


@ 国内 称 为 赌 本 分 割 问题 . 


] wx 表示 他 开始 的 时 候 


译 者 注 


行 一 系列 相互 独立 的 押 注 活动 . 每 次 押 注 , 他 以 概率 p 赢 1 元 
才 他 有 大 元 钱 , 当 他 输 光 钱 的 时 候 , 或 者 
注 的 概率 有 多 大 ? 
而 停止 押 注 的 事件 , 用 
有 上 元 钱 的 条 从 


得 数 最 


局 . 令 NN 为 第 一 个 人 被 淘汰 的 


问 他 以 累计 钱 数 为 n 元 而 停止 摆 


也 的 累计 


玉 表示 第 
F 4 发 生 的 概率 . 利用 全 概 


F 下 事 人 


次 和 


注 而 赢得 1 元 


0<k<n, 
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其 中 g = 1 一 p. 利用 过 去 押 注 结果 和 以 后 的 押 注 是 相互 独立 的 , 第 一 次 押 注 赢得 1 元 钱 
等 同 于 以 上 十 1 元 钱 开 始 , 故 P(AIF) = wk 类 似 可 得 P(4|Fe) = wn-1. 这 样 我 们 得 
到 wx = PWE+L 十 GLK 1. 这 个 结果 可 以 写成 


pHL 一 人 一 TO 一 WE 0O<k<n, 


其 中 7 = q/p. 利用 这 个 递 推 公式 和 边界 条 件 wo = 0 和 wn = 工 可 以 将 wk 表达 为 p 和 


d 的 函数 . 
我 们 有 wk 一 wx rT* (wi wo), 并 注意 到 wo = 0, 从 而 


hk k—1 k k 
Wk+1 = Wk 二 7 01 三 Up 1 十 7 Wi 二 7 Wi 二 wi 十 Twi 十 … 十 7 Wi. 


上 面 的 和 式 可 以 分 成 + ==1(p = gq) 和 7 关 1(p 关 9) 两 种 情况 计算 出 来 , 得 到 


1 一 7 
wi = 人 i 


于 wn = 了 利用 上 式 可 以 得 到 


Tr FPFY, 
201 三 
1 2 
Pe 右 p 二 9， 
Nn 
从 而 
二 Ey 
Tr HPAg, 
Wk 三 
k i 
nN 


43.* 令 A 和 B 为 相互 独立 的 事件 . 利用 事件 独立 性 的 定义 证 明 下 面 的 结论 : 

(a) 事件 4 和 事件 B° 相互 独立 ; 

(b) 事件 4* 和 事件 B“ 相互 独立 . 

解 (a) 事件 4 可 以 表 成 两 个 互 不 相 容 的 事件 ANn B° 和 ANB 的 并 .不 
性 公理 和 事件 4 和 事件 B 的 相互 独立 性 , 得 到 


概率 的 可 加 


Se 


P(A)= P(ANB)+P(ANB')= P(AP(B) + P(ANB'). 


由 此 可 知 


P(ANB°)= P(A)(1 — P(B)) = P(A)P(B®). 

即 4 和 B* 相互 独立 . 

(b) 由 4 和 B 的 相互 独立 性 , 利用 (a) 推 得 4 和 B* 的 相互 独立 性 . 再 将 结论 (a) 应 

用 于 Be 和 4, 得 到 Be 和 A 的 相互 独立 性 . 

44.* 令 4、B、C 为 相互 独立 的 事件 , P(C) > 0. 证 明 4 和 B 在 给 定 C 的 条 件 之 下 是 相互 
独立 的 . 


45.”* 


46.” 


解 我们 有 


此 可 知 4 和 B 在 给 定 C 的 条 件 之 下 是 相互 独立 的 . 在 一 系列 的 等 式 中 , 第 一 个 等 式 
是 由 条 件 概 率 之 定义 所 得 , 第 二 个 等 式 是 由 事件 4、B、C 的 独立 性 , 第 四 个 等 式 是 分 别 
利用 了 4 与 C 的 独立 性 和 B 与 C 的 独立 性 . 
令 41、4?、43、44 为 相互 独立 的 事件 , P(As m 44) > 0. 证 明 


P(A1 [| A2|As 问 44) = P(Ai U 42). 


解 ”我 们 有 
P(4i 门 43 门 44) P(A1)P(A;3)P(A4) a 
P(Ai|As 门 44) P(As Nn Aa) P(As) PA) P(Ai1). 
类 似 地 可 以 得 到 P(A2|Asn 44) = P(A2) 和 P(4in4?z|4asn44) = P(A1n A2), 最 后 得 


到 ， 
P(A1U A2|AsN As)= P(AilAsN As)+P(A2|AsN As)— P(Ai1N A2|AsN As) 
= P(Ai1)+P(A2) — P(A1N A;2) 
= P(AiU 42). 


拉 普 拉 斯 继承 准则 . 设 有 m 十 1 个 盒子 , 第 大 个 盒子 内 放 有 大 个 红 球 和 mm 一 上 个 白 球 ， 
其 中 天 由 0 变 到 mm. 现在 随机 地 取 一 个 盒子 (每 个 盒子 等 概率 被 取 到 ), 独立 地 、 有 放 区 
地 从 这 个 盒子 内 抽取 一 个 球 , 一 共 抽 取 n 次 . 假定 这 n 次 抽 得 的 球 都 是 红 球 . 问 从 这 个 
盒子 内 再 抽取 一 个 球 , 这 个 球 为 红 球 的 概率 有 多 大 ? 当 m 很 大 的 时 候 , 这 个 概率 会 怎样 
变化 ? 
解 记 互 为 第 m+1 次 抽 得 红 球 的 事件 , R,, 表示 前 n 次 都 抽 得 红 球 的 事件 . 直观 上 看 ， 
连续 抽出 红 球 说 明 被 抽取 盒子 里 含有 很 多 红 球 , 因此 P(E|R,) 比较 靠近 1. 事实 上 , 拉 
普 拉 斯 利用 此 例 去 计算 给 定 5000 年 中 每 天 日 出 的 条 件 下 明天 日 出 的 概率 . (我 们 不 清楚 
拉 普 拉 斯 多 么 严肃 地 对 待 这 个 计算 问题 , 但 是 这 已 成 为 概率 论 发 展 过 程 中 的 一 个 传说 .) 

我 们 有 


P(EN RR.) 


利用 全 概率 公式 , 得 到 
P(R%) = 》 P( 选 中 了 第 个 盒子 ) (2) = 一 >», (£) ， 
k=0 k=0 


El A 
P(ENR,) = P(R,41) = RT (E) : 
k=0 
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对 于 较 大 的 m, 可 将 和 数 看 成 积分 的 近似 值 : 


1 [EN lL wi 1 m™t1 1 
P(Rn) = 入 "dz 一 . 3 : 
(Rn) a a 2 (m+l)m"* ni+l n+l 


类 似 地 ， 


P(ENR,) = P(Rai) 玉 
下 
P(BIRn) ~ 2 
人 
47.， 二 项 式 系数 公式 和 帕斯卡 三 角形 . 
(a) 在 抛 据 n 枚 硬币 的 试验 中 , 将 出 现 次 正面 向 上 的 结果 数 记 作 (中 ,利用 (站 的 这 
个 定义 导出 帕斯卡 三 角形 中 所 具有 的 递 推 关系 ( 见 图 1.20); 
(b) 利用 (a) 中 推导 出 来 的 递 推 关系 和 归纳 法 , 证 明 下 面 的 公式 


nN nl 
四 RAT 


解 (a) 可 以 有 两 种 方法 产生 含有 大 次 正面 向 上 的 序列 (0 < 天 < n). 
1) 前 对 开 次 抛 括 硬币 的 试验 中 出 现 大 次 正面 向 上 , 第 ”次 抛掷 的 时 候 出 现 反面 向 
上 . 这 种 序列 一 共有 ("i) 个 . 
(2) 前 n 一 1 次 抛 撕 硬 币 的 试验 中 出 现 一 1 次 正面 向 上 , 第 ”次 抛掷 的 时 候 出 现 正面 
向 上 . 这 种 序列 一 共有 (?-!) 个 
k=1,2,...,n—1, 


, DE 
k Ls k= 0,n. 


这 个 公式 总 结 了 帕斯卡 三 角形 中 提示 的 递 推算 法 . ( 见 图 1.20) 
现在 利用 (a) 中 的 公式 以 及 归纳 法 导出 下 面 的 公式 


nN nl 
四 一 人 


对 于 n = 1, 利用 约定 0! = 1, 我 们 得 到 (!) = (1) = 1 即 对 于 n = 1 公式 是 成 立 
的 . 现在 假定 公式 对 于 n 一 1 以 前 的 一 切 正 整 数 都 成 立 . 转 而 讨论 n 的 情况 . 对 于 


IE I 


(b 


— 


二 1,… ,nn 一 1, 由 下 式 
ny)_ /nn—1 n—1 
kj) \k—l , k 
(nC—1)! , (nC— 1)! 
(gk—1)l(n—1—k+1)! kn—1—k)! 
k nl! 用 一 大 nl! 
nk i! n kl(n—k)! 


nl 
kl(n — k)! 


边 取 对 数 , 得 到 


习 题 59 
看 出 , 公式 是 成 立 的 . 而 对 于 天 = 0,m 的 情况 , 公式 也 显然 成 立 . 这 样 我 们 用 归纳 法 
证 明了 公式 对 一 切 n 是 成 立 的 . 
0 
(0) ! 
1 1 
C7 .0 
2 2 2 , 
(0) (1) (2) bE 
3 3 3 3 
(0 07s) : 3 31 
4 4 4 4 4 
(0) (2) (2) (8) (a) 1 4 6 41 
图 1.20 利用 帕斯卡 三 角 依次 计算 二 项 式 系 数 的 方法 . 左边 的 三 角 阵 列 上 的 数 就 是 在 右 
边 阵 列 上 的 相应 的 数 . 而 右边 的 三 角 阵 列 上 的 数 , 除了 每 一 排 的 两 端的 数 都 是 
1 以 外 , 其 余 位 置 是 的 数 都 是 上 一 排 的 两 个 相 邻 数 的 和 
48.” 博 雷 尔 - 坎 泰利 引 理 . 考虑 一 个 无 穷 试 验 序列 . 假定 第 i 次 试验 成 功 的 概率 为 pi. 记 和 
为 试验 序列 中 没有 一 次 成 功 的 事件 , 并 记 了 为 试验 序列 中 有 具有 无 限 多 次 成 功 的 事件 . 
(a) 假定 试验 是 相互 独立 的 , 并 且 学 1 pi = oo. 证 明 P(N)=0 和 了 P(D) = 
(b) 假定 之 ; pi < co. 证 明 P(T) = 0. 
解 (a) 由 事件 NN 发 生 可 知 前 n 次 试验 中 没有 一 次 成 功 , 因此 


N) < lI 一 Di 


logP(N ) < Doe (1 — pi) 下 


上 式 中 令 n 一 co, 我 们 得 到 logP(N) = 一 00, 因此 P(N) = 0. 
记 Ln 表示 这 个 无 穷 次 试验 中 只 有 有 限 次 成 功 并 且 最 后 一 次 成 功 出 现在 第 n 次 
试验 . 由 于 我 们 已 经 证 明了 P(N) = 0. 不 难 验 证 P(Ln) = 0. 又 由 于 事件 7 是 不 
相 容 的 事件 序列 Li,(n zz 1) 和 YN 的 并 . 我 们 得 到 
P(1°)= P(N)+ > P(L 
n=1 
所 以 P(D) = 1 
(b) 令 5; 表示 第 i 次 试验 成 功 的 事件 . 对 某 个 固定 的 n 和 每 一 个 i > n, 定义 Fi 表示 
在 时 刻 n 以 后 在 时 刻 i 第 一 次 成 功 的 事件 , 显然 FR C 5;. 最 后 令 An 表示 在 时 刻 


n 以 后 至 少 有 一 次 成 功 的 习 


以 后 至 少 有 一 次 成 功 . 


P(D < P(A;) 


(LU 


昌 


且 


牛 . 注意 到 TC A，， 


因为 无 限 多 次 成 功 说 明 任意 时 刻 n 


显然 事件 A 是 不 相 容 的 事件 序列 {f; : i > n} 之 并 . 这 样 
(J 四 = > P(F) < > P(5;) = > pi. 
i 二 nn 十 1 i 二 nn 十 1 i 二 nn 十 1 i 二 nn 十 1 
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于 之 ,ji1Pi < co, 令 nn 一 00, 上 式 右 边 趋 于 0, 这 说 明 P(7) = 0. 
1.6 节 ”计数 法 
49. 德 梅 雷 之 谜 . 独立 地 抛掷 一 个 6 面体 骨 子 , 共 三 次 . 问 下 面 的 事件 中 哪个 事件 可 能 性 大 一 
些 , 和 数 为 11 还 是 和 数 为 12? (这 个 问题 是 17 世纪 法 国 贵族 德 梅 雷 向 他 的 朋友 帕斯卡 
提出 的 .) 
50. 生日 问题 . 一 共有 n 个 人 参加 一 个 聚会 . 假定 每 个 人 的 生日 是 相互 独立 地 分 布 的 , 并 
均匀 地 分 布 在 一 年 中 的 某 一 天 , 并 且 排 除了 2 月 29 日 这 一 特殊 的 日 子 (假定 没有 人 在 这 
一 天 生日 ). 问 没 有 任何 两 人 在 同一 天 生日 的 概率 有 多 大 ? 
51. 有 一 个 饮 子 中 含有 mm 个 红 球 和 m 个 白 球 . 
(a) 我 们 随机 地 从 中 抽 走 两 个 球 ， 写 出 样本 空间 并 计算 抽出 两 个 不 同 颜 色 的 球 的 概率 . 
计算 的 时 候 利 用 两 种 不 同 的 方法 : 一 种 方法 是 利用 离散 均匀 分 布 率 的 计数 方法 , 另 
种 方法 是 利用 序 贯 的 基于 乘积 规则 的 方法 . 
(b) 我 们 转动 一 个 具有 3 条 边 的 货 子 , 每 条 边 上 分 别 标明 1, 2, 3. 如 果 出 现 有 , 则 从 急 
子 中 取出 个 球 , 放 在 一 边 . 写 出 样本 空间 并 利用 全 概率 公式 计算 取出 的 球 全 是 红 
色 的 概率 . 
52. 经 过 充分 洗 牌 的 一 副 52 张 的 扑克 牌 中 , 从 上 到 下 地 一 张 一 张 地 翻 牌 , 求 出 第 13 张 牌 是 
第 一 次 遇 到 的 老 K 的 概率 . 
53. 一 共有 90 个 学 生 , 其 中 包括 乔 和 简 . 现在 将 他 们 随机 地 分 成 3 个 班 (每 个 班 30 人 ). 求 
乔 和 简 被 分 在 同一 个 班 内 的 概率 . 
54. 有 20 辆 小 汽车 停放 在 一 个 停车 场 . 这 20 辆 车 中 有 10 辆 是 美国 制造 , 另外 10 辆 是 其 他 
国 制造 . 停车 场 是 一 字 排 开 的 共有 20 个 车 位 . 在 某 一 天 内 这 些 车 辆 的 停放 是 完全 随机 的 . 
(a) 一 共有 多 少 种 不 同 的 车 辆 停放 方法 ? 
(b) 这 些 车 互相 错位 地 停放 的 概率 有 多 大 ( 既 没 有 两 辆 美国 车 相 邻 , 也 没有 两 辆 外 国 车 
相 邻 )? 
55. 在 一 个 8 x 8 的 国际 象棋 盘 中 放 上 8 个 车 (国际 象棋 的 棋子 是 放 在 方 格子 内 , 不 是 放 在 
交叉 线 上 的 !). 假定 所 有 放 法 都 是 等 可 能 的 . 求 出 这 些 车 是 安全 的 概率 (在 同一 行 上 不 能 
有 两 个 车 , 在 同一 列 上 也 不 能 有 两 个 车 .) 
56. 茶 个 系 一 共 开 设 8 门 低 水 平 课程 Li,L2,… ,Ls 和 10 门 高 水 平 课程 Hi, Ho,:… ,Hio. 
个 有 效 的 课程 表 由 4 门 低 水 平 课程 和 3 门 高 水 平 课程 组 成 . 
(a) 一 共 可 以 排出 多 少 种 不 同 的 课程 表 ? 
(b) 假定 课程 页 … ,Hs 必须 以 为 先 修 课 程 , 五 6 … ,Hio 必须 以 和 Ls 为 先 
修 课程 . 问 在 这 样 的 条 件 下 可 以 排出 多 少 种 不 同 的 课程 表 ? 
57. 利用 26 个 字母 能 够 写 出 多 少 6 个 单词 的 句子 , 其 中 每 个 字母 恰好 出 现 一 次 ”所 谓 一 个 
单词 就 是 指 一 个 非 空 的 字母 序列 . 当然 这 些 单词 和 句子 可 以 是 毫 无 意义 的 . 
58. 从 一 副 充 分 洗 牌 的 扑克 牌 中 取出 上 面 的 7 张 牌 . 求 出 下 列 事件 的 概率 : 
(a) 7 张 牌 中 恰好 含有 3 张 A; 
(b) 7 张 牌 中 恰好 含有 2 张 K; 
(c) 7 张 牌 中 恰好 含有 3 张 A, 或 者 恰好 含有 2 张 K, 或 者 恰好 含有 3 张 A 和 2 张 开 . 


59. 


60. 
61.” 


62.” 


停车 场 停 有 100 辆 车 , 其 中 辆 是 有 问题 的 , 按 柠檬 法 案 应 退回 厂家 的 .现在 从 中 随机 
也 选 出 m 辆 进行 试车 , 问 其 中 恰 有 n 辆 问题 车 的 概率 有 多 大 ? 

将 一 副 52 张 充分 洗 牌 的 扑克 牌 分 发 给 4 个 玩家 . 求 每 个 玩家 得 到 一 张 A 的 概率 . 

超 几何 概率 . 一 个 包子 里 边 放 有 n 个 球 , 其 中 m 个 是 红 球 . 现在 从 包子 中 随机 地 、 无 放 
回 地 抽取 大 个 球 (无 放 回 的 意思 在 下 一 次 抽取 球 的 时 候 已 经 抽出 的 球 不 再 放 回 饶 子 ). 问 
抽出 的 个 球 中 恰 含 宇 个 红 球 的 概率 有 多 大 ? 
解 “ 样 本 空间 由 (") 种 从 钢 子 中 选择 个 球 的 方法 组 成 . 与 我 们 感 兴趣 的 事件 有 关 的 选 
择 方法 数 可 以 这 样 计算 ; 在 m 个 红 球 中 选 i 个 球 有 (中 ) 种 选 法 , 从 n 一 m 个 不 是 红色 
的 球 中 选 尺 一 i 个 球 有 ("-") 种 选 法 . 这 样 一 共有 (") (*-") 种 选 法 . 由 于 各 种 选 法 都 
是 等 可 能 的 , 相关 的 概率 为 


I! 


其 中 i> 0 满足 条 件 i< m,i<<k, 且 一 i < n 一 m. 对 于 其 他 的 i 相应 的 概率 为 0. 
存在 不 可 区 分 的 对 象 的 排列 数 . 在 对 n 个 对 象 进 行 排 列 的 时 候 , 若 遇 到 某 些 对 象 之 间 不 
可 区 分 , 此 时 会 造成 不 同 的 排列 之 间 不 可 区 分 . 因此 这 种 具有 不 可 区 分 对 象 的 排列 数 会 
小 于 nl. 例如 三 个 不 同 的 字母 A、B、C 共有 6 种 不 同 的 排列 


ABC, ACB, BAC, BCA, CAB, CBA， 
是 字母 A, D 和 DD 只 有 3 种 不 同 的 排列 
ADD, DAD, DDA. 


(a) 假定 n 个 对 和 象 中 用 个 是 不 可 区 分 的 . 证 明 可 区 分 的 对 象 的 序列 一 共有 nl/k! 个 . 
(b) 现在 假定 一 共有 7 种 不 可 区 分 的 对 象 类 型 , 而 第 i 种 类 型 内 , 一 共有 k; 个 不 可 区 分 
的 对 象 . 证 明 可 区 分 的 对 象 排列 数 为 
nl 


Te 


解 (a) 不 妨 将 n 个 对 象 中 个 不 可 区 分 的 对 象 D 记 为 D1,… ,Dp. 车 顾及 它们 的 下 标 ， 


这 个 原本 不 可 区 分 的 对 象 就 是 可 区 分 了 . 将 这 些 对 象 进行 排列 , 一 共有 nl 个 不 
同 的 排列 . 把 这 些 原本 不 可 区 分 的 对 象 的 下 标 去 掉 , 则 这 些 排列 中 每 一 个 排列 都 有 
一 些 排列 与 这 个 排列 不 可 区 分 . 这 些 不 可 区 分 的 排列 形成 一 个 类 , 这 个 类 中 一 共 
k! 个 排列 . 这 样 ,ml 个 排列 可 以 分 成 ml/ 个 类 , 每 个 类 内 的 排列 都 是 不 可 区 分 的 . 
这 样 , 可 区 分 的 对 象 序列 数 就 是 nl/kl. 例如 A、D、DD 三 个 对 象 的 排列 有 3! = 6 个 
(把 题 中 给 出 的 4、B、C 的 六 种 不 同 排列 中 的 B、C 替换 为 D 即 可 ) 


ADD, ADD, DAD, DAD, DDA, DDA, 
这 6 个 排列 种 有 些 排 列 是 不 可 区 分 的 . 可 以 将 它们 分 成 n!1/k! = 3!/2! = 3 个 类 


五 


{ADD, ADD}, {DAD, DAD}, {DDA, DDA), 
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(b) 


而 每 个 类 内 含有 k! = 2! = 2 个 不 可 区 分 的 排列 . 
一 种 办 法 是 将 (a) 中 的 方法 进行 推广 ， 对 每 一 个 类 别 i, 有 ki 个 不 可 区 分 的 对 象 ， 
单 就 这 个 不 可 区 分 的 对 象 而 言 , 就 有 ki! 种 不 可 区 分 的 排列 . 由 于 一 共有 ” 类 不 可 
区 分 的 对 象 , 这 样 每 一 个 排列 , 都 会 属于 一 个 具有 ilk21… kx! 个 排列 的 大 类 , 在 这 
个 大 类 内 的 所 有 排列 都 是 不 可 区 分 的 . 这 样 可 以 区 分 的 对 象 序列 的 个 数 就 是 
nl 
klkal .kl 

另 一 种 考虑 的 方法 如 下 : 在 n 个 位 置 中 选 定 fa 个 位 置 给 第 一 类 不 可 区 分 的 对 
象 占 有 , 剩 下 的 对 一 语 个 位 置 中 再 选 定 ks 个 位 置 给 第 二 类 不 可 区 分 的 对 象 占有 ， 
依次 类 推 , 对 于 每 一 类 不 可 区 分 的 对 象 都 分 派 了 位 置 . 这 样 每 一 种 位 置 的 分 配 位 置 
的 方法 对 应 于 一 种 可 区 分 的 对 象 序列 ， 这 样 的 分 配 位 置 的 方法 数 等 于 将 n 个 对 象 
分 成 7 个 组 的 方法 数 , 每 一 个 组 的 大 小 分 别 是 后 ，，… ,和 r， 而 这 种 分 组 方法 的 数目 
就 是 多 项 式 系数 . 


在 许多 概率 模型 中 试验 结果 是 数值 化 的 , 例如 许多 仪器 的 仪表 板 的 读数 以 及 股 
价 等 . 也 有 其 他 一 些 例子 中 的 试验 结果 不 是 数值 化 的 , 但 是 这 些 试验 结果 与 某 些 数 
值 相 联 系 . 例如 , 从 某 个 群体 中 选择 学 生 , 我 们 希望 了 解 每 位 学 生 的 平均 学 分 . 当 我 
们 讨论 这 些 数值 的 时 候 , 通常 给 这 些 数值 确定 概率 . 我 们 可 以 通过 随机 变量 实现 这 
个 任务 , 这 正 是 本 章 重 点 介绍 的 对 象 . 

现在 设 在 某 个 试验 中 , 所 有 可 能 的 试验 结果 构成 一 个 样本 空间 . 对 于 样本 空间 
中 的 每 一 个 可 能 的 试验 结果 , 关联 着 一 个 特定 的 数 . 这 种 试验 结果 与 数 的 对 应 关系 
形成 随机 变量 ( 见 图 2.1). 我 们 将 试验 结果 所 对 应 的 数 称 为 随机 变量 的 取 值 . 从 数 
学 上 讲 , 随机 变量 是 试验 结果 的 实 值 函 数 . 


样本 空间 : 
两 次 抛掷 的 所 有 可 能 结果 


图 2.1 (a) 随机 变量 的 图 像 化 表示 . 这 是 一 个 试验 结果 的 函数 , 对 每 一 个 试验 结果 确定 一 个 
数值 ; (b) 随机 变量 的 一 个 例子 . 将 一 个 具有 4 个 面 的 人 般 子 连续 抛掷 两 次 , 相应 的 随 
机 变量 是 两 次 抛 撕 所 得 到 的 最 大 数 . 车 试验 结果 是 (4 2), 则 随机 变量 的 值 为 4 
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现在 举 儿 个 随机 变量 的 例子 . 
(a) 连续 抛掷 一 枚 硬币 共 5 次 , 在 这 个 试验 中 正面 出 现 的 次 数 是 一 个 随机 变量 . 
然而 作为 试验 结果 的 长 度 为 5 的 正面 和 反面 的 序列 却 不 能 作为 随机 变量 , 因为 它 
对 于 一 个 试验 结果 没有 给 出 一 个 明显 的 数值 . 
(b) 在 两 次 抛 撕 一 个 骨 子 的 试验 中 ,下面 的 例子 是 随机 变量 : 
(i) 两 次 抛 撕 般 子 所 得 到 的 点 数 之 和 
(i 两 次 抛掷 一 个 山 子 所 得 到 6 点 的 次 数 ; 
(十 ) 第 二 次 抛 撕 所 得 到 的 点 数 的 5 次 方 . 
(c) 在 传输 信号 的 试验 中 , 传输 信号 所 需 的 时 间 、 接 收 到 的 信号 中 发 生 错误 的 
次 数 、 传 输 信号 过 程 中 的 时 间 延 迟 等 都 是 随机 变量 


我 们 列 出 阁 干 关于 随机 变量 的 基本 概念 , 这 些 概 念 将 在 本 章 中 详细 介 


\NS 


DS 


与 随机 变量 相关 的 主要 概念 

在 一 个 试验 的 概率 模型 之 下 : 

。 随机 变量 是 试验 结果 的 实 值 函 数 ; 

。 随机 变量 的 函数 定义 了 另 一 个 随机 变量 ; 

。 对 于 一 个 随机 变量 , 我 们 可 以 定义 一 些 平均 量 , 例如 均值 和 方差 ; 
。 可 以 在 菜 事件 或 某 随 机 变量 的 条 件 之 下 定义 一 个 随机 变量 ; 
。 存 在 一 个 随机 变量 与 某 事 件 或 某 随机 变量 相互 独立 的 概念 . 


若 一 个 随机 变量 的 值 域 (随机 变量 的 取 值 范围 ) 为 一 个 有 限 集合 或 最 多 为 可 数 
无 限 集合 , 则 称 这 个 随机 变量 为 离散 的 . 例如 上 面 (a) 和 (b) 中 提 到 的 随机 变量 
于 它 只 能 取 有 限 多 个 值 , 所 以 是 离散 的 随机 变量 . 
若 一 个 随机 变量 可 以 取 到 不 可 数 无 限 多 个 数 , 则 这 个 随机 变量 就 不 是 一 个 离散 
的 随机 变量 . 例如 从 区 间 [-1,1 上 随机 地 取 一 个 点 a, 随机 变量 a? 就 不 是 离散 的 
随机 变量 . 另 一 方面 随机 变量 


? 


1, 若 a> 0， 
sgn(a) 二 940， 若 a=0， 
一 1]， 若 a<0 


是 一 个 离散 的 随机 变量 . 
本 章 只 讨论 离散 随机 变量 . 尽管 有 时 候 省 略 了 形容 词 “ 离 散 ”, 但 我 们 讨论 的 
还 是 离散 随机 变量 的 性 质 . 
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= 
变量 是 


离散 随机 


个 概率 ; 


三 | 


里 


的 分 布 列 得 到 . 


与 离散 随机 变量 相关 的 概念 

在 一 个 试验 的 概率 模型 之 下 : 
试验 结果 的 一 个 实 值 函数 , 但 是 它 的 取 值 范围 只 能 是 有 限 
多 个 值 或 可 数 无 限 多 个 值 ; 
一 个 离散 随机 变量 有 一 个 分 布 列 , 它 对 于 随机 变量 的 每 一 个 取 值 , 给 出 一 


离散 随机 变量 的 函数 也 是 一 个 离散 随机 变量 , 它 的 


分 布 列 可 以 从 原 随机 变 


下 面 的 几 节 将 讨论 上 面 


尽管 本 章 中 
的 概念 (概率 、 条 件 和 独 
些 新 的 记号 . 本 章 中 真 了 


口 


离散 随机 变量 的 取 值 概率 是 随机 变量 的 最 重要 
用 px 表示 随机 变量 X 的 分 布 列 . 


种 特征 , 并 
取 值 为 x 的 概率 定义 为 事 们 


看 起 来 引入 了 很 多 新 的 概念 , 实际 上 并 非 妇 


所 提 到 的 概念 及 其 相关 的 方法 形 
重要 的 离散 随机 变量 的 例子 . 第 3 章 将 讨论 一 般 的 随机 变 


LE 论 . 此 外 我 们 还 将 提供 
(不 一 定 为 离散 随机 变 


里 


1 此 . 我 们 只 是 将 第 一 章 


立 性 等 ) 简单 地 应 用 


入 


2.2 用 


布 


里 


到 了 随机 变量 上 去 , 仅仅 引进 了 一 


E 新 的 概念 是 均值 与 方差 . 


列 


的 特征 . 我 们 用 分 布 列 表示 这 


的 事件 


F {XX= z} 的 概率 , 上 


设 x 是 随机 变量 X 的 取 值 , 则 六 
所 有 与 x 对 应 的 试验 结果 所 组 成 


的 概率 , 用 px(z) 表示 , 即 


DX(Z) =P({X = 27). 


例如 , 在 将 一 枚 均匀 的 硬币 独立 地 抛掷 两 次 的 试验 中 , 令 X 为 正面 向 上 的 次 数 . 则 
X 的 分 布 列 由 下 式 给 出 
1/4， 若 z=0 或 zx=2， 
px(7) 二 91/2， 若 z=1， 
0， ”其 他 
今后 在 不 引起 混淆 的 情况 下 , 我 们 将 省 去 表示 事件 或 集合 的 花 括号 . 例如 用 
P(X = zx) 表示 事件 {X = z} 的 概率 , 尽管 记号 P({X = z}) 比较 确切 一 些 . 同时 


我 们 也 会 遵守 下 面 
例如 随机 变量 的 取 值 等 . 


对 于 分 布 列 , 我 们 有 


>》 px(z) 二 1， 


的 传统 : 我 们 用 大 写字 母 表示 随机 变量 , 用 小 写字 母 表示 实数 ， 
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其 中 求 和 是 对 随机 变量 X 的 一 切 可 能 的 取 值 而 求 的 . 上 式 之 所 以 成 立 是 由 于 概率 
的 可 加 性 和 归 一 性 公理 . 对 于 不 同 的 x, 事件 {X = xz} 是 互 不 相 容 的 , 并 且 对 所 有 
的 zx, 事件 系列 {X = z} 形成 了 样本 空间 的 一 个 分 割 . 利用 类 似 的 原理 可 以 证 明 ， 
对 于 任意 一 个 X 的 可 能 值 的 集合 5, 下 式 成 立 ; 


P(XEe9) = 》 px(z) 


ZEO 


例如 , 在 将 一 枚 均匀 的 硬币 独立 地 抛掷 两 次 的 试验 中 , 至 少 一 次 正面 向 上 的 概率 为 


Ee Te es 
E20) = Dp T31777 


分 布 列 的 计算 , 在 概念 上 是 很 简单 的 , 图 2.2 给 出 了 很 直观 的 解释 . 


样本 空间 : 
两 次 抛 毛 骨 子 的 所 有 可 能 结果 (b) 


图 2.2 (a) 随机 变量 X 的 分 布 列 计 算 方 法 的 图 像 化 表示 . 对 每 一 个 X 的 可 能 值 x, 找 出 使 
X 二 x 的 所 有 试验 结果 , 将 它们 的 概率 相 加 得 到 px (x). (b) 设 所 涉及 的 试验 是 抛掷 
个 具有 4 个 面 的 均匀 山 子 , 独立 地 抛掷 两 次 .所 涉及 的 随机 变量 为 X = 两 次 转 
动 所 得 到 的 最 大 点 数 . X 的 可 能 值 为 1,2,3,4， 对 于 给 定 的 xz 的 值 , 为 计算 px(z) 
的 值 , 将 X 取 值 为 x 的 所 有 试验 结果 的 概率 相 加 , 得 到 px (x) 的 值 . 例如 , 有 三 个 
试验 结果 ((1,2), (2,2), (2,1)) 的 XX 的 值 为 2, 而 每 一 个 试验 结果 的 概率 为 1/16, 故 
px(2) = 3/16 
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随机 变量 X 的 分 布 列 的 计算 
对 每 一 个 随机 变量 X 的 值 x: 
(1) 找 出 与 事件 {X = xz} 相对 应 的 所 有 试验 结果 ; 
(2) 将 相应 的 试验 结果 的 概率 相 加 得 到 px(z). 


2.2.1 “ 伯 努 利 随机 变量 


考虑 抛掷 一 枚 硬币 , 设 正面 向 上 的 概率 为 p, 反面 向 上 的 概率 为 1 一 p. 伯 努 利 
随机 变量 在 试验 结果 为 正面 向 上 时 取 值 为 1, 在 试验 结果 为 反面 向 上 时 取 值 为 0, 即 


0， 若 反面 癌 上 . 


1 若 正 面向 上 ， 
X 一 


它 的 分 布 列 为 


p, 车 =1， 
k) = 
oh) 二 若 天 = 0. 


由 于 伯 努 利 随 机 变量 非常 简洁 , 因此 它 也 是 非常 重要 的 随机 变量 . 在 实际 中 它 
用 于 刻画 具有 两 个 试验 结果 的 概率 模型 . 例如 : 
(a) 在 给 定 的 时 刻 , 一 架 电 话机 可 处 于 待机 状态 或 使 用 状态 ; 
(b) 一 个 人 可 以 处 于 健康 状态 或 患 有 某 种 疾病 状态 ; 
(c) 作为 一 个 人 的 政治 态度 , 他 可 以 赞成 或 反对 某 个 候选 人 . 
进一步 , 我 们 可 以 将 多 个 伯 努 利 随 机 变量 综合 成 更 加 复杂 的 随机 变量 . 下 面 我 们 要 
讨论 的 二 项 随机 变量 就 是 其 中 之 一 . 
2.2.2 ”二 项 随机 变量 


将 一 枚 硬币 抛 撕 n 次, 每 次 抛掷 , 正面 出 现 的 概率 为 p, 反面 出 现 的 概率 为 1 一 p， 
而 且 各 次 抛掷 是 相互 独立 的 . 令 X 为 n 次 抛 撕 得 到 正面 的 次 数 . 我 们 称 X 为 二 
项 随机 变量 , 其 参数 为 n 和 p. X 的 分 布 列 就 是 在 1.5 节 中 讨论 的 二 项 概率 : 


(按照 传统 , 我 们 用 代 蔡 x, 表示 整数 值 随机 变量 X 的 取 值 . ) 对 于 二 项 随机 变量 ， 
利用 归 一 化 公理 可 以 得 到 
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在 图 2.3 中 , 用 图 像 表示 茶 些 特殊 情况 的 二 项 分 布 列 . 


px( 襄 px( 有 
二 项 分 布 列 , n=9, p=1/2 


二 项 分 布 列 ， 
很 大 , p 很 小 


; nn k 
图 2.3 二 项 随机 变量 的 分 布 列 . 当 p = 1/2 时 , 分 布 列 是 相对 于 n/2 对 称 的 . 当 
相应 的 分 布 偏向 0, 当 p > 1/2 时 , 相应 的 分 布 偏向 n 


2.2.3 ”几何 随机 变量 

在 连续 抛掷 硬币 的 试验 中 , 每 次 抛掷 , 正面 出 现 的 概率 为 p, 反面 出 现 的 概率 为 
1 一 p, 而 且 各 次 抛掷 是 相互 独立 的 . 令 X 为 连续 地 抛掷 一 枚 硬币, 直到 第 一 次 出 现 
正面 所 需要 抛掷 的 次 数 . X 就 称 为 几何 随机 变量 . 前 a 次 抛 括 的 结果 为 反面 向 
上 , 第 次 抛掷 的 结果 为 正面 向 上 的 概率 为 (1 一 p)*-1p. 因此 X 的 分 布 列 为 


p< 1/2 时 ， 


px(k) = (1 一 信和 1p， k=1,2,... 


儿 何 随机 变量 的 分 布 列 的 图 像 可 见 图 2.4. 从 


oo 


i > a 1 a 
er = Wm 


可 知 这 是 合格 的 分 布 列 . 


px( 同 
条 


0 1 2 3 天 


图 2.4 几何 随机 变量 的 分 布 列 . px (k) = (1 一 p)*-1ip(k = 1,2.…) 是 几何 级 数 , 递减 的 因子 


为 1 一 p 


此 处 , 利用 抛掷 便 币 的 试验 恰巧 是 抓 住 了 事物 的 本 质 . 更 一 般 地 , 连续 抛 扼 便 
币 的 试验 序列 中 出 现 正面 可 以 解释 为 独立 试验 序列 中 的 一 次 试验 “成 功 ”, 这 样 几 
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Ee 


可 随机 变量 可 以 解释 为 独立 试验 序列 中 直到 试验 第 一 次 “成 功 ” 所 需 的 试验 次 数 . 
而 试验 “成 功 ” 的 意义 是 随 着 所 讨论 的 问题 的 实际 背景 而 变化 的 . 例如 可 以 是 在 某 
次 测验 中 通过 了 考试 , 在 某 次 搜索 中 发 现 目 标 , 或 成 功 地 进入 计算 机 系统 等 . 


2.2.4” 泊 松 随机 变量 
设 随机 变量 X 的 分 布 列 由 下 式 给 出 


入 K 
一 入 
e x 


px(k) = k=0,1,2,..., 


其 中 和 是 刻画 分 布 列 的 取 正 值 的 参数 , 则 称 X 是 泊 松 随机 变量 ( 见 图 2.5). 由 于 


ce k 2 
六 三 过 (++ 告 +…) rN 
k=0 
这 个 数列 符合 分 布 列 的 定义 . 
px(D px() 


泊 松 分 布 列 , 和 =0.5 


泊 松 分 布 列 , 和 =3 


Cc *~0.05 


234567 & 
图 2.5 对 应 于 不 同 的 和 的 泊 松 随机 变量 的 分 布 列 . 当 和 < 1 时 , 分 布 列 是 单调 递减 的 . 当 


入 > 1 时 , 分 布 列 随 着 的 递增 , 先 递 增 后 递减 (可 参考 本 章 末 尾 的 习题 ) 


为 了 给 出 泊 松 随机 变量 的 直观 印象 , 考虑 当 二 项 随机 变量 的 参数 ”很 大 , p 很 
小 的 情况 . 例如 , 令 X 为 字数 为 n 的 一 本 书 中 含有 打印 错误 的 字数 . 这 样 , X 是 
二 项 随机 变量 . 但 是 , 由 于 一 个 字 被 打印 错误 的 概率 p 非常 小 , X 也 可 以 用 泊 松 分 
布 列 刻画 ( 打 错 一 个 字 相 当 于 抛 皂 一 枚 硬币 出 现 正面 向 上 , 但 正面 向 上 的 概率 p 很 
小 ). 类 似 的 例子 很 多 , 例如 在 一 个 城市 中 一 天 中 发 生 车 祸 的 事故 数 . 

用 泊 松 随机 变量 刻画 这 样 的 现象 十 分 恰当 . 更 确切 地 说 , 参数 为 的 泊 松 随机 
变量 的 分 布 列 是 二 项 随机 变量 分 布 列 的 很 好 的 逼近 : 


本 


入 R nl 
-oo 4(1 nk k=0,1,... 


nN 


》 


@ 若 这 个 总 和 不 等 于 1 就 与 概率 的 归 一 化 定律 相 冲 突 . 一 一 译 者 注 
@ 普遍 认为 ， 第 一 个 关于 二 项 随机 变量 和 泊 松 随机 变量 之 间 联 系 的 实证 例子 , 是 在 19 世纪 后 半 
泊 松 分 布 列 去 逼近 波兰 骑兵 被 马 踢 伤 的 人 数 


三 


睹 
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其 中 入 = np, n 很 大 , p 很 小 . 在 这 种 情况 下 , 泊 松 分 布 列 使 得 模型 简单 , 计算 方便 . 
例如 , n = 100, p = 0.01, 用 二 项 随机 变量 计算 成 功 次 数 大 = 5 的 概率 为 


oe — 0.01)®” = 0.002 90. 
利用 泊 松 随机 变量 计算 这 个 概率 得 到 近似 值 
e715 = 0.003 06, 


其 中 入 = np = 100:0.01=1. 
在 本 章 最 后 的 习题 中 , 我 们 将 给 出 泊 松 逼近 的 严格 证 明 . 第 6 章 将 作 进 一 步 解 
释 和 推广 , 并 且 将 结果 用 到 泊 松 过 程 中 去 . 


2.3 ”随机 变量 的 函数 


设 X 是 一 个 随机 变量 . 对 X 施行 不 同 的 变换 , 可 以 得 到 其 他 的 随机 变量 . 作 
为 例子 , 用 X 表示 今天 的 气温 (单位 为 摄氏 度 , "C). 作 变 换 了 = 1.8X + 32, 得 到 
华氏 温度 的 读数 (*F). 在 这 个 例子 中 是 的 线性 函数 
Y=g(X)=aXt+tb, 
其 中 a 和 bb 是 数值 . 我 们 也 可 以 考虑 X 的 非 线 性 函数 
Y = og(X). 
例如 可 以 考虑 对 数 度 量 , 此 时 可 用 变换 g(X) = log(X). 
设 Y = g(X) 是 随机 变量 X 的 函数 , 由 于 对 每 一 个 试验 结果 , 也 对 应 一 个 (Y 
的 ) 数值 , 故 Y 本 身 也 是 一 个 随机 变量 . 如 果 X 是 离散 的 随机 变量 , 其 对 应 的 分 布 
列 为 px, 则 YY 也 是 离散 随机 变量 , 其 分 布 列 可 通过 X 的 分 布 列 进行 计算 . 实际 上 ， 
对 固定 的 y 值 , py(y) 的 值 可 以 通过 下 式 计算 
py(W)= > px(z). 
{zlg(x)=vy} 
例 2.1 可 以 利用 上 述 公 式 计算 Y= |X| 的 分 布 列 , 其 中 X 的 分 布 列 由 下 式 给 出 ， 


ja 若 xz 是 [-4,4] 中 的 整数 ， 
lo， 其 他 


由 于 了 的 值 域 为 y= 0,1,2,3,4, 对 于 值 域 中 的 任意 y, 只 需 将 满足 |z| = y 的 所 有 
px(z) 的 值 相 加 , 就 可 以 得 到 py(y) 的 值 . 当 y = 0 的 时 候 , 只 有 x = 0 能 够 满足 条 
件 y= |0| = 0. 这 样 


mrO=px(OD= 
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对 于 y= 12,3,4, 有 两 个 z 值 满足 条 件 y= |z|. 例如 


py(l) = px(—1)+px(1)= 


见 图 


四 | 已 一 


这 样 ,Y 的 分 布 列 为 


2/9， 若 y= 1,2,3,4, 
py(y) 二 $41/9， 若 y=0， 
0， ”其 他 . 


px(20 py(W) 


2.6 的 图 示 说 明 ) 


图 2.6 例 2.1 中 钴 和 YY =|X| 的 分 布 列 


现在 看 另 一 个 随机 变量 2 = X?. 为 了 求 得 2 的 分 布 列 , 我 们 既 可 以 将 它 看 


成 X 的 平方 , 也 可 以 看 成 Y = |X| 的 平方 . 利用 公式 pz(z) 
DZz(2 = 2 vy py(y), 得 到 
2/9， 若 > = 1,4,9,16,， 
DZz(2) = 一 41/9， 若 z=0， 
0， ”其 他 . 
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2 px (7) 或 


X 的 分 布 列 给 出 了 X 所 有 可 能 取 值 的 概率 . 通常 , 我 们 希望 将 这 些 信息 综合 
成 一 个 能 够 代表 这 个 随机 变量 的 数 . X 的 期 望 可 以 实现 这 个 目的 . X 的 期 望 就 是 


X 的 所 有 取 值 相对 于 它 的 概率 的 加 权 平 均 . 


为 了 更 好 地 理解 期 望 的 意义 , 假定 你 有 机 会 转动 一 个 幸运 轮 许多 次 . 每 次 转动 ， 


为 pi,p2,… ,pn. 而 出 现 的 数 就 是 你 所 得 到 的 钱 数 (给 你 的 奖 


所 “期 望 ”得 到 的 钱 数 是 多 少 ? 此 处 “每 次 ”和 “期 望 ”都 是 一 些 不 确定 的 词汇 . 但 


是 下 面 的 解释 可 以 把 这 些 词汇 的 含义 确定 下 来 . 


幸运 轮 会 出 现 一 个 数 , 不 妨 设 为 m1,m2,… ,mn 中 的 一 个 . 这 些 数 出 现 的 概率 分 别 


励 ). “每 次 ”转动 , 你 


72 第 2 章 离散 随机 变量 


假定 你 一 共 转 动 幸 运 轮 次 , 而 其 中 有 应 次 转动 的 结果 为 mi. 你 所 得 到 的 总 
钱 数 为 miki 十 m2zkz 十 … 十 mnkn. 每 次 转动 所 得 到 的 钱 数 为 


m1k1 十 mok2 十 …… 十 mn ken, 


es 
现在 假定 是 很 大 的 一 个 数 , 我 们 有 理由 假定 概率 与 频率 相互 接近 , 即 
让 全 Di ) 7 人， 


这 样 你 每 次 转动 幸运 轮 所 期 望 得 到 的 钱 数 是 


miki 二 + m2kz 二 … 十 mnk 
2 一 Mipi + m2p2 + mnpn. 


M= 


由 这 个 例子 的 启发 , 我 们 引进 下 面 的 定义 .” 


期 望 
设 随 机 变量 X 的 分 布 列 为 px. X 的 期 望 值 (也 称 期 望 或 均值 ) 由 下 式 给 出 : 


革 >》 zpx(z) 


例 2.2 ”考虑 两 次 抛 括 一 枚 硬币 的 试验 ， 和 正面 向 上 的 概 
率 为 3/4. 令 X 是 得 到 的 正面 数 , 这 是 一 个 二 项 随机 变量 , n= 2,p = 3/4. 它 的 分 
布 列 为 


若 大 = 0， 
(1/ 和 (3/ 和 ， 看 天 = 1 
(3/4)2, 若 有 = 2， 


故 其 均值 为 


1\? 过 3\” 24 3 
OR 
@ 当 随 机 变量 的 取 值 范围 为 可 数 无 限 集合 的 时 候 , 可 能 会 遇 到 这 样 的 情况 ， 和 号 并 ,zpx(z) 没有 
确切 定义 . 通常 , 当 并 ,|zlpx(z) < oo 的 时 候 , X 的 期 望 值 有 确切 定义 , 它 的 值 是 一 个 有 限 数 并 
且 等 于 级 数 总 ,zpx (zx) 的 部 分 和 的 极限 , 而 这 个 极限 值 与 求 和 号 内 各 项 的 次 序 无 关 
作为 一 个 反例 , 考虑 随机 变量 X 的 取 值 范 围 为 21,22,.…, 相应 的 概率 分 别 为 2-1,2-2,.……, 此 
时 级 数 于 ,zpx (z) = co, 并 称 X 的 期 望 无 确切 定义 . 另 一 个 反例 是 : X 取 2* 和 一 2* 的 概率 
为 2-R, 二 2,3,…， 这 个 例子 中 X 的 期 望 也 无 确切 定义 , 其 原因 是 并 ，|zlpx(z) = co. 尽管 
这 个 随机 变量 是 相对 于 0 对 称 的 , 其 期 望 值 似乎 可 以 定义 为 0. 
本 书 所 涉及 的 随机 变量 的 期 望 总 是 有 定义 的 , 因此 在 论证 中 默认 随机 变量 的 期 望 是 有 定义 的 . 
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通常 将 X 的 均值 解释 为 X 的 代表 值 , 它 位 于 X 的 值 域 中 间 的 某 一 点 .更 确 
切 地 , 可 以 将 分 布 的 均值 看 成 分 布 列 的 “重心 ”( 见 图 2.7 的 解释 ) 特别 , 当 随 机 变 
量 的 分 布 列 具有 对 称 中 心 的 时 候 , 这 个 对 称 中 心 必定 为 这 个 对 称 随机 变量 的 均值 


Til 


重心 c= 均值 =E[X 
图 2.7 均值 作为 重心 的 解释 , 设 在 一 根 杆 上 在 x 处 放 上 质量 为 px (x) 的 物质 , px (x) > 0. 
所 谓 重心 是 指 杆 上 的 平衡 位 置 c, 使 得 ec 的 右边 的 力矩 等 于 c 的 左边 的 力矩 . 即 满足 

> (z — cpx(z)=0 


ZT 


的 c. 因此 c= ,zpx(x), 即 E[X] 等 于 X 的 质量 分 布 的 重心 


2.4.1 方差、 矩 和 随机 变量 的 函数 的 期 望 规则 

期 望 是 随机 变量 及 其 分 布 列 的 重要 特征 . 此 外 , 还 有 其 他 重要 的 特征 量 . 例如 
随机 变量 X 的 二 阶 矩 定义 为 随机 变量 X2 的 均值 . 进一步 n 阶 矩 E[X"] 定义 为 
X" 的 期 望 值 . 这 样 均值 本 身 就 刚好 是 一 阶 算 . 

除了 均值 , 随机 变量 X 的 最 重要 的 特征 量 是 方差 , 记 作 var(X). 它 由 下 式 定义 


var(X)=E[(X— EIX])’|. 


由 于 (XX 一 EIX])? 只 能 取 非 负 值 , 故 方差 只 能 取 非 负 值 . 方差 提供 了 XX 在 期 望 周转 
分 散 程度 的 一 个 测度 . 分 散 程度 的 另 一 个 测度 是 标准 差 , 它 由 下 式 定义 


ox = Vvar(X). 


标准 差 具 有 实用 性 , 因为 它 的 量 纲 与 X 的 相同 . 例如 X 是 以 米 为 单位 的 长 度 , 方 
差 的 单位 为 平方 米 , 而 标准 差 的 单位 为 米 . 

计算 方差 的 一 种 方法 是 先行 计算 随机 变量 (X 一 EE[X])? 的 分 布 列 , 然后 利用 期 
望 值 的 定义 计算 X 的 方差 . (X 一 EIX])? 是 随机 变量 X 的 函数 , 可 利用 前 面 提 任 
的 方法 计算 (XX 一 E[X])? 的 分 布 列 . 
例 2.3 考虑 例 2.1 中 的 随机 变量 X, 它 的 分 布 列 为 


J 


eae 1/9， 若 xz 是 [-44 中 的 整数 ， 
: 0， ”其 他 . 


74 第 2 章 离散 随机 变量 


此 时 , 均值 E[X] = 0. 这 可 以 从 分 布 的 对 称 性 看 出 , 也 可 以 从 期 望 的 定义 直接 计算 
得 到 


4 
EIX]= Dwpx() = 3 Dz=0. 


2 一 一 人 


令 Z = (XX 一 E[X])? = X?. 在 例 2.1 中 , 已 经 得 到 


2/9， 若 z= 二 1,4,9,16 
pz(z) = 1/9, 若 2 三 (0， 


这 样 , X 的 方差 为 


和 2 60 
var(X) = 了 四 = >》 zpz( 人 =0.5+1.5+4:5+9.5+16.5= 了 ， 


计算 var(X) 时 并 不 需要 先行 计算 (XX 一 E[X])? 的 分 布 列 , 而 另 有 更 加 便利 的 
方法 . 这 种 方法 根据 下 面 的 规则 得 到 |. 


随机 变量 的 函数 的 期 望 规则 
设 随机 变量 X 的 分 布 列 为 px, 又 设 g(X) 是 X 的 一 个 函数 , 则 g(X) 的 其 
望 由 下 列 公式 得 到 


Elg(X)| = 》 g(x)px(z). 


为 验证 此 公式 , 令 Y = 9(XZ) 并 利用 2.3 节 导 出 的 公式 


py(W)= >》 px(z), 


{fzlg(z)= 妇 
得 到 
Elg(X)| = EIY] 
= >》 ypy(y) 
a3 D>, px(z) 


y {zlg(x)=y} 
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= > ， VDX(Z) 


y {zlg(z)=vy} 


=> > g(r)px(z) 
y {zlg(z)=y} 


= >》 9g(z)px(z). 


将 期 望 规则 应 用 到 X 的 方差 , 我 们 得 到 


var(X) =E[(X — ELX])*] = D(z — ELX])?px (2). 


化 


相似 地 , 对 于 X 的 ” 阶 矩 , 我 们 有 


EIX = 》 zx"px(7). 


因此 在 计算 X 的 nn 阶 矩 的 时 候 , 我 们 不 必 先 求 X” 的 分 布 列 . 
例 2.3( 续 ) 设 随机 变量 X 的 分 布 列 由 下 式 给 出 ， 


= 1/9， 若 xz 是 [-4, 旬 中 的 整数 ， 
lo， 其 他 


和 


二 


用 期 望 规则 得 到 


var(X) = E[(X— ELX])’| 
一 >》 (z 一 也 [X])2px (2) 


4 
1 § 
= 了 3 》 过 (因为 EBD = 0) 
2 一 一 4 
1 
= A 
_ 60 


这 个 结果 与 早先 得 到 的 结果 是 一 样 的 . 


先前 已 经 提 到 , 方差 是 非 负 的 . 那么 是 否 可 为 0? 由 于 在 方差 的 公式 (zz 一 


E[X])2px(z) 中 , 每 一 项 都 是 非 负 的 . 为 了 使 得 这 个 和 式 为 0, 其 充 要 条 件 是 对 每 一 
个 z, (z 一 EE[X])2px(z) = 0 这 个 条 件 说 明 对 每 一 个 使 得 px(z) > 0 的 x, 均 有 


Zz 二 BL[X]. 这 说 明 X 其 实 不 是 随机 的 , 随机 变量 X 等 于 E[X] 的 概率 为 1. 
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方差 
随机 变量 X 的 方差 由 下 列 公式 所 定义 : 
var(X)=E[(X— EX]))’|. 
并 且 可 以 用 下 式 进 行 计算 : 
var(X) = 》(z — ELX])?px (72). 


TX 


它 是 非 负 的 , 其 平方 根 称 为 标准 差 , 记 为 ox. 


2.4.2 ”均值 和 方差 的 性 质 


我 们 将 用 随机 变量 的 函数 的 期 望 规则 导出 一 些 均值 和 方差 的 重要 性 质 . 
考虑 随机 变量 X 的 函数 


Y=aXi+idb, 
其中 a 和 bb 是 已 知 常数 . 关于 线性 函数 了 的 均值 和 方差 , 我 们 有 
E[Y| = >》 (az 十 D)px(z 2 0 = aE[X]+b. 


TX 


进一步 地 


var(Y) = > (ar +b— ElaX +0])? px(z) 


二 >》 (az 十 0 一 aEIX] 一 b)? px (x) 


随机 变量 的 线性 函数 的 均值 和 方差 
设 X 为 随机 变量 , 令 


Y=aXi+b, 


其 中 a 和 为 给 定 的 常数 , 则 


E[Y] = aE[X]+b, var(Y) = a2var(X). 


此 外 , 我 们 还 将 证 明 如 下 一 个 方差 的 重要 公式 . 


用 矩 表达 的 方差 公式 
var(X) = EI[X?] — (EI[X])?. 
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这 个 用 和 矩 表达 的 方差 公式 的 证 明 可 以 通过 下 列 等 式 完成 : 
var(X) = 5 (2 — ELX])? px (2) 


一 D> (2* — 2xE[X] + (E[X])?) px (7x) 
= zpx(z) — 2E[X] > zpx(z) + (E[X])? > px(z) 


= E[X?] — 2(E[X])? + (BLX])? 
= E[X?] - (E[X])?. 


最 后 我 们 用 例子 说 明 一 个 陷阱 : 除非 g(X) 是 一 个 线性 函数 , 一 般 情况 下 Elg(X)] 
不 等 于 g(E[X]). 
例 2.4 (平均 速度 和 平均 时 间 ) “如 果 遇 到 好 天 和 气 (这 种 天 气 出 现 的 概率 为 0.6), 爱 
丽 丝 会 步行 2 英里 上 学 , 步行 速度 为 每 小 时 5 英里 (V = 5). 天 气 不 好 的 时 候 , 她 
骑 摩 托 车 上 学 , 时 速 30 英里 (V = 30). 她 上 学 所 用 的 平均 时 间 是 多 少 ? 

正确 的 方法 是 先 计算 时 间 他 的 分 布 列 ， 


0.6，t = 2/5 小 时 ， 
DT 人 = 
0.4，t = 二 2/30 小 时 ， 


然后 计算 均值 


EIT] = 0.6 人 


5 30 15 
然而 , 下 面 的 计算 是 错误 的 : 先 计 算 平均 速度 
EIV] = 0.6.5 十 0.4.30 = 15 英 里 /小 时 ， 


然后 声称 平均 时 间 为 


2 2 
本 亲 二 站 


总 之 , 在 这 个 例子 中 


下 一 


EIT|=E 回 Se 


2 
Vi 
2.4.3” 某 些 常用 的 随机 变量 的 均值 和 方差 

我 们 将 推导 出 一 些 重要 的 随机 变量 的 均值 和 方差 , 在 本 课程 中 经 常会 遇 到 这 些 
公式 . 
例 2.5 ( 伯 努 利 随机 变量 的 均值 和 方差 ) “考虑 抛 扼 一 枚 硬币 , 设 正面 出 现 的 概率 
为 p, 反面 出 现 的 概率 为 1 - 2. 伯 努 利 随 机 变量 的 分 布 列 为 


i 


78 第 2 章 离散 随机 变量 


了 D， 车 =1， 
k)= 
ty 1 若 k=0. 


下 面 给 出 了 它 的 均值 、 二 阶 矩 和 方差 的 计算 公式 
EI[X]=1:p+0:(1—7p)= 7p, 
E[X2]=12.:p+02.(1—p)=», 

var(X) = ELX3 — (ELX])? =p— 1? =p(1 —p). 

例 2.6 (离散 均匀 随机 变量 )” 设 涉及 的 试验 是 殷 撕 一 个 均匀 的 具有 6 个 面 的 骨 子 . 

其 平均 点 数 和 方差 是 多 少 ? 我 们 将 试验 结果 看 成 一 个 随机 变量 , 它 的 分 布 列 为 

1/6， 若 k= 1,2,3,4,5,6， 
px(k) = | 


0， ”其 他 . 
由 于 分 布 列 相 对 于 3.5 是 对 称 的 , 我 们 得 到 E[X] = 3.5. 关于 方差 , 我 们 有 
var(X) = E[X’] — (ELX])? 


一 + 和 ++32 二 从 十 52 +67) - (3.5)2， 
这 样 , 可 得 到 var(X) = 35/12. 
上 面 的 随机 变量 是 离散 均匀 随机 变量 的 特殊 情况 按 定义 离散 均匀 随机 变量 
的 取 值 范围 是 由 相 邻 的 整数 所 组 成 的 有 限 集 , 而 取 每 个 整数 的 概率 都 是 相等 的 . 这 
样 它 的 分 布 列 为 


其 中 a,b 是 两 个 整数 , 作为 随机 变量 的 值 域 的 两 个 端点 , a < 5(X 的 分 布 列 的 图 示 
见 图 2.8). 由 于 它 的 分 布 列 相对 于 (a 十 5)/2 是 对 称 的 , 其 均值 为 

EIX] = 2 二 
为 计算 X 的 方差 , 先 考虑 a 二 1 和 b=n a 情况 . 利用 归纳 法 可 以 证 明 


= HD- s(t )(2n + 1) 


(具体 证 明 过 程 留 作 习 题 ) 这 样 利用 二 阶 矩 , 可 得 到 X 的 方差 
var(X) = E[X?] — (ELX])? 
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px(D 


好 


图 2.8 在 a 和 之 间 均 匀 


4 十 4 


Fb 


对 于 a 和 5 的 一 般 和 性 
上 的 分 布 之 间 的 差异 , 只 是 一 


差 (此 处 区 间 [a,0] 是 指 处 于 a 
方差 只 需 将 简单 情况 下 公式 


4 况 , 实际 上 在 


和 局 之 | 


var(X)= 


分 布 的 随机 变 昌 


个 分 布 是 男 一 个 分 布 的 习 


FP 的 n 蔡 换 成 5 一 a 十 1, 即 
(一 a 十 1)2 一 


b 


k 
的 分 布 列 . 它 的 均值 和 方差 为 
(0— a)(b— a+2) 

12 


区 间 [aa 上 的 均匀 


var(X)= 


9 分布 与 在 区 间 [1,b 一 a 十 1] 
F 移 , 因此 两 者 具有 相同 的 方 
司 的 整数 的 集合 ). 这 样 , 在 一 般 情况 下 , X 的 


1 也 一 oO 一 2 十 2) 


12 


例 2.7 ( 泊 松 随机 变量 的 均值 ) 


设 筷 


px(k) 


最 后 一 个 等 式 利用 了 泊 松 分 布 列 的 归 一 
相似 的 计算 指出 泊 松 随机 变量 


FP 将 用 不 同 的 方法 导出 这 个 事实 . 


二 


章节 


kl 


中 入 > 0 为 常数 . 其 均值 可 从 下 列 等 


的 方差 为 和 ( 见 本 章 2.7 了 


12 


的 分 布 列 为 泊 松 分 布 列 , 即 


k= 0,1,2,.. 


2 


式 得 到 


(k= 二 0 这 一 项 为 0) 


化 性 质 . 


节 的 例 2.20). 在 以 后 的 
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2.4.4 ”利用 期 望 值 进行 决策 


什么 样 的 准则 去 最 优 地 选择 处 理 方案 呢 ? 期 望 值 是 一 个 合理 且 方 便 的 准则 . 如 果 
期 望 回报 看 成 一 个 处 理 方案 长 期 重复 执行 的 平均 回报 , 那么 选择 具有 最 大 期 望 回报 


设想 有 一 个 项 目 有 几 种 处 理 方案 . 而 每 种 处 理 方案 都 有 随机 的 回报 , 那么 上 


bee 


[日 


的 策略 是 合理 的 . 下 面 是 一 个 例子 


例 2.8 (智力 测验 ) ”这 是 一 个 具有 随机 回报 的 实施 方案 最 优选 择 的 典型 例子 . 


在 一 个 智力 游戏 中 一 共有 两 个 问题 需要 回答 , 但 游戏 规则 要 求 你 选择 一 个 问题 


作为 首先 回答 的 问题 . 问题 1 比较 容易 , 你 能 够 正确 回答 的 概率 为 0.8. 回答 正确 就 
能 够 得 到 100 美元 的 奖金 . 问题 2 比较 难 , 你 能 够 正确 回答 的 概率 为 0.5. 回答 正 
确 就 能 够 得 到 200 美元 的 奖金 . 若 你 选 定 一 个 首先 回答 的 问题 却 不 能 正确 地 回答 ， 


你 不 但 不 能 拿 到 奖金 , 而 且 也 不 容许 回答 第 二 个 问题 . 若 你 能 够 正确 地 回答 第 一 个 


问题 , 就 还 有 机 会 回答 第 二 个 问题 . 为 了 使 奖金 总 和 的 期 望 值 最 大 , 你 应 该 选择 哪 
一 个 问题 作为 首先 回答 的 问题 ? 


这 个 问题 并 不 简单 , 高 回报 必 有 高 风险 . 希望 首先 回答 问题 2, 奖金 多 , 但 是 问 


题 比较 难 , 并 且 要 冒 着 不 让 回答 问题 1 的 风险 . 我 们 将 所 得 到 的 奖金 总 额 作为 随机 
变量 X, 并 且 计算 两 种 可 能 的 回答 问题 的 次 序 下 的 期 望 值 E[X] ( 见 图 2.9). 


$ 100 $ 200 


$ 300 $ 300 
首先 回答 问题 1 首先 回答 问题 2 

图 2.9 智力 测验 问题 中 的 两 种 实施 方案 的 序 贯 树 形 图 说 明 

(a) 先 回答 问题 1: 此 时 X 的 分 布 列 为 (参考 图 2.9 的 左边 ) 


px(0)=0.2, px(100) = 0.8.0.5， px(300) = 0.8.0.5, 


由 此 得 到 


E[X] = 0.8.0.5.100 填 0.8.0.5.300 = 160( 美 元 ). 
(b) 先 回 答 问题 2: 此 时 X 的 分 布 列 为 (参考 图 2.9 的 右边 ) 
px(0)=0.5, px(200) = 0.5.0.2， px(300) = 0.5.0.8, 


由 此 得 到 


这 样 看 来 , 首先 回答 比较 容易 的 问题 1 比较 合算 . 


E[X] = 0.5 0.2.200 十 0.5.0.8.300 = 140( 美 元 ). 
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现在 将 这 个 具体 的 例子 推广 成 一 般 的 问题 . 用 p 和 ps 分 别 表示 正确 回答 问 
题 1 和 问题 2 的 概率 , 用 wv， 和 wo 分 别 表示 正确 回答 问题 后 所 得 到 的 奖金 . 若 先 回 
答 问题 1, 则 所 得 到 的 奖金 总 额 为 


EI[X] = pi1(1 — p2)v1 pip2(vV1 二 v2) = D1U1 十 D1D2V2， 
而 先 回 答 问 题 2, 所 得 到 的 奖金 总 额 为 


EL[X] = p2(1 — pi1)v2 + pip2(v1 + v2) = p2v2 十 D1D2V1. 
这 样 , 最 优 策略 为 先行 回答 问题 1 的 充 要 条 件 是 


P1v1 十 Pp1p2v2 之 D2V2 十 D1D2V1， 
或 等 价 的 条 件 
D1V1 > D2V2 
l—p: 1—p2 
这 样 , 每 一 个 问题 都 有 一 个 指标 pv/(1 一 p), 其 中 就 是 正确 回答 问题 的 概率 ,wv 就 
是 正确 回答 问题 以 后 所 得 到 的 奖金 . pv/(1 -中 的 值 大 , 相应 的 问题 就 应 该 优先 回 
答 . 这 个 问题 还 可 以 推广 到 多 于 两 个 问题 的 情况 ( 见 本 章 后 面 的 习题 ). 


2.5 ”多 个 随机 变量 的 联合 分 布 列 


在 一 个 试验 中 经 常 涉及 几 个 随机 变量 . 例如 , 在 医疗 诊断 中 , 通常 涉及 几 个 试 
验 指标 , 或 者 在 网 络 中 我 们 常常 对 几 个 网 关 的 负荷 感 兴趣 . 所 谓 多 个 随机 变量 是 指 
在 同一 个 试验 结果 之 下 产生 的 多 个 随机 变量 .它们 所 涉及 的 样本 空间 和 概率 律 是 
相同 的 . 这 些 随机 变量 的 取 值 是 由 试验 结果 确定 的 , 因此 它们 的 取 值 相 互联 系 . 现 
在 考察 它们 取 值 的 概率 . 本 节 将 分 布 列 和 期 望 推广 到 多 个 随机 变量 的 情况 . 以 后 我 
门 还 要 讨论 条 件 和 独立 这 样 的 概念 , 这 些 概 念 是 与 第 1 章 中 讨论 的 概念 平行 的 . 
现在 设 在 同一 个 试验 中 有 两 个 随机 变量 X 和 YY. 它们 的 取 值 概率 可 以 用 它们 
的 联合 分 布 列 刻 画 , 并 且 用 px,y 表示 . 设 (z,g) 是 和 和 了 的 可 能 取 值 , (z,y) 的 
概率 质量 定义 为 事件 {X = x,Y = y 的 概率 : 


px,y (7,y)= P(X=7,Y 


| 


y)- 
今后 我 们 使 用 简洁 的 表达 式 P(X = xz,Y = 由 尽管 P({X = xz}Nn{Y = 分 ) 或 
P(X =x 和 YY =vy) 是 更 准确 的 表达 式 . 

利用 联合 分 布 列 可 以 确定 任何 由 随机 变量 X 和 YY 所 刻画 的 事件 的 概率 . 例如 
4 是 某 些 (x,y) 所 形成 的 集合 , 则 


P((X,Y)eA)= >》 pxr(z,y). 
(xz,y)eEA 
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事实 上 , 我 们 还 可 以 利用 X 

= >》pxy(z 人，pyr( 人 =>》 pxr(zg， 
2 父 

关于 px(z) 的 公式 可 以 从 下 面 的 等 式 得 到 : 


px(7)= P(X = 7) 


上 面 第 二 


事件 之 和 (y 取 裔 YY 


和 了 的 联合 分 布 列 计算 X 或 了 的 分 布 列 


= >》_P(X=7,Y=Y) 
= 2 


个 等 式 是 由 于 事件 {X = xz} 是 所 有 形 如 {X = zx,Y = y} 的 互 不 相 容 的 


二 维 表 , px (zx) 的 值 就 是 二 多 


值 的 计算 


例 2.9 


相应 的 列 和 , 而 Y 的 边缘 分 布 列 的 值 就 是 表 中 相应 的 行 和 . 


FP 所 有 不 同 的 值 ). 关于 py(y) 的 公式 的 验证 是 完全 类 似 的 . 为 
区 别 起 见 , 我 们 称 px (zx) 或 py (VY) 为 边缘 分 布 列 ， 
可 以 通过 表格 计算 X 或 Y 的 边缘 分 布 列 . 将 XX 和 YY 的 联合 分 布 列 排 成 一 个 


人 表格 中 与 x 对 应 的 那 一 列 的 所 有 值 的 总 和 . py(y) 的 


是 完全 类 似 的 . 下 面 的 例子 和 图 2.10 说 明了 具体 操作 方法 . 


表格 形式 的 联合 


分 布 询 px yx(z, 攻 


pe 
| i 7/20 
四 人 
2 | ijoo| za0 7/20 ”边缘 分 布 列 py( 作 


‘rllel i 
1 2 3 4 


3/20 6/20 8/20 3/20 


列 和 : 


边缘 分 布 列 px( 
图 2.10 例 2.9 中 计算 XX 和 YY 的 边缘 分 布 列 的 表格 法 说 明 . X 和 YY 的 联合 分 布 列 px,y (zx,y) 


的 值 列 于 表格 中 . 在 表 中 与 (z,y) 相应 的 位 置 上 的 数 为 px,y (x,y). 对 于 给 定 的 x, 只 


需 把 与 z 对 应 的 列 上 的 各 px,y (x,y) 值 相 加 就 得 到 px (x) 的 值 , 例如 px(2) = 6/20. 


相似 地 , 对 于 给 定 的 y， 


只 需 把 与 wt 对 应 的 行 上 的 各 px,y (7, y) 值 相 加 就 得 到 px(y ) 


的 值 , 例如 py(2) = 7/20 


设 X 和 了 的 联合 


分 布 列 如 图 2.10 所 示 . X 的 边缘 分 布 列 的 值 就 是 表 中 
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2.5.1 多 个 随机 变量 的 函数 
存在 多 个 随机 变量 的 情况 下 , 就 有 可 能 从 这 些 随机 变量 出 发 构造 出 新 的 随机 变 


量 . 特别 地 , 从 二 元 函 
变量 的 分 布 列 可 以 从 


数 2 = 9(CXY) 可 


pz(2) 


DD 


个 新 的 随机 变量 . 这 个 新 的 随机 


有 定 


区 合 分 布 列 通过 下 式 计算 


px,y (2,Y). 


{(2,y)|9(2,y)=z} 


进 一 


步 地 , 关于 随机 变量 的 函数 的 期 望 规则 可 以 推广 成 下 列 形 式 


Elg(X,Y)] = > >》 9g(z,g)pxy(z, 切 . 


这 个 公式 的 说 
的 线 怕 


E 明 与 单 变量 函数 的 公式 的 记 
FE 函 数 的 时 候 , 我 们 有 


ElaX+bY 十 c = 


中 a,b,c 均 为 给 定 的 常数 . 


E 明 类 似 . 特别 地 , 当 9 是 形 如 aoX+boz +e 


aE[X] + bE[Y] + 0, 


例 2.9 ( 续 ) ”考虑 随机 变量 X 和 YY, 它们 的 联合 分 布 列 由 图 2.10 给 出 . 由 下 面 的 
等 式 给 出 一 个 新 的 随机 变量 
Z=X+2Y. 
2Z 的 分 布 列 可 以 通过 下 式 计 算 
pz(z) = > px,Y (X,Y), 
{(z,y)|z+2y=z} 
利用 图 2.10 的 数据 , 得 到 2 的 分 布 列 
1 1 2 4 
pz(3) = 30’ pz(4) = 30’ pz(5) = 30’ pz(6) = 30’ pz(7) = 50 
3 3 2 1 1 
pz(8) = 20° pz(9) = 20° pz(10) = 30’ pz(11) = 30’ pz(12) = 20° 
2Z 的 期 望 值 可 从 2Z 的 分 布 列 得 到 
E[2] = > zpz(2) 
1 1 2 2 4 
二 
3 3 2 1 1 


84 第 2 章 离散 随机 变量 


另外 , 也 可 以 利用 公式 
E[2] = E[X] + 2E[Y]. 


利用 图 2.10 的 数据 , 先 求 出 X 和 了 的 期 望 
Ex 1.3 i Ne 1 3 下 
20 20 20 20 ”20 
Ely 1.3 CE i ee _50 
20 20 20 20 20 
直 51 50 
E[2Z] = D0 0 = 7.55. 


2.5.2 ”多 于 两 个 随机 变量 的 情况 
设 有 三 个 随机 变量 X,Y, 2Z, 其 联合 分 布 列 的 定义 是 类 似 的 , 即 


Px,y,2(7,Y, 2) P(X TI 2 z), 


其 中 (zx,y,z) 是 (X,Y 2) 的 所 有 可 能 的 取 值 . 相应 地 可 以 得 到 边缘 分 布 列 , 例如 


px,y (T,Y) = 2 PxYzle, by) 


= > pxy,z(r,y, 2) 
y C4 
关于 随机 变量 的 函数 的 期 望 规则 为 
El[g(X,Y,2)] 2 )Px,Y,2 (Ty, 2)) 


并 且 , 如果 9 是 形 如 aX 十 bY 十 c2Z 十 d 的 线性 函数 , 则 


ElaX+0bY +cZ+d =aElX] +bE[Y] + cE[Z]+d. 


进一步 地 , 上面 的 结果 可 以 推广 到 三 个 以 上 随机 变量 的 情况 . 例如 设 Xi X2,… ,Xn 
为 n 个 随机 变量 , a1,a2,… ,an 为 n 个 常数 , 我 们 有 


HI 


ElalX 十 a2X1 十 … 十 anXn| 一 a1E[X1| 十 a2E[X,| 十 … :十 anE[Xnl. 


例 2.10 (二 项 随机 变量 的 均值 ) 你 的 概率 班 上 有 300 个 学 生 , 每 个 学 生 有 1/3 的 
概率 可 得 到 成 绩 A, 并 且 相 互 独立 . 记 X 为 班 上 取得 A 的 学 生 数 . X 的 平均 数 为 
多 少 ? 记 


1， 如 果 第 :个 学 生得 4， 
”10， 其 他 . 
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这 样 , Xi1,X2,… ,Xn 是 独立 的 伯 努 利 随机 变量 序列 , 其 公共 均值 为 p = 1/3. 它们 
的 和 


Ds 
是 班 上 取得 A 的 人 数 . 由 于 X 是 次 独立 重复 试验 中 “成 功 ” 的 次 数 , 它 是 二 项 
随机 变量 , 其 参数 为 n 和 p. 

利用 X 是 诸 随 机 变量 X; 的 线性 函数 , 我 们 有 


300 300 1 1 
E[X]= > EIXi] = >, 3 = 300. = = 100. 
$=] 


i=1 


如 果 我 们 把 这 个 问题 提成 一 般 的 问题 , 设 班 上 有 nn 个 学 生 , 每 个 学 生得 A 的 概率 
为 p, 则 


ELX]= 2 PIX = 2_7 = np. 


例 2.11 (帽子 问题 ) ”假设 一 共有 n 个 人 , 将 他 们 的 帽子 放 在 一 个 盒子 里 , 每 个 人 
随机 地 从 中 拿 起 一 个 帽子 (每 个 人 只 拿 一 个 帽子 , 并 且 人 和 帽子 的 各 种 对 应 都 是 等 
可 能 的 ). 拿 回 自己 的 帽子 的 人 数 的 平均 数 是 什么 ? 

于 每 个 人 i， 如 能 拿 到 自己 的 帽子 ， 则 定义 X; = 1, 否则 Xi = 0.， 由 于 
P(X;=1)=1/n 和 P(X;=0)=1 一 1/n, X; 的 平均 值 为 


由 
半 二 六 1 十 XX2 十 … 十 Xn， 
可 知 
ELX] = PIX] + EPIX2] + + EXn]=n:==1. 
关于 联合 分 布 列 的 小 结 


设 X 和 TY 为 在 某 个 试验 中 的 随机 变量 . 
e。X 和 TY 的 联合 分 布 列 pxy 由 下 式 定义 


px,y (X,Yy) = P(X=7,Y = YY). 
。XX 和 YY 的 边缘 分 布 列 可 由 下 式 得 到 
px(z)= >》 pxy(z,Y), py(y) = >》 pxr(z 切 . 
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。 和 和 了 的 函数 g(X,Y) 是 一 个 随机 变量 , 并 且 


Elg(X,Y)] = > > 9(%, 9)px,Y (7,Y). 


若 9 是 线性 的 , 且 gaX+bY 十 c, 则 


ElaX+obY +d = aElX]+ bEIY]+ ce. 


i 的 结论 可 以 自然 地 推广 到 两 个 以 上 的 随机 变量 的 情况 . 


Fr 


2.6 条 件 


在 第 1 章 中 , 我 们 已 经 指出 条 件 可 以 给 某 些 事件 提供 补充 信息 , 当然 条 件 也 可 
以 对 随机 变量 取 某 些 值 提供 某 些 补充 信息 . 我 们 将 引进 随机 变量 条 件 分 布 列 的 概 
念 , 此 处 的 条 件 是 指 某 个 事件 的 发 生 或 其 他 随机 变量 的 值 的 给 定 . 本 将 讨论 条 件 
分 布 列 的 性 质 . 实际 上 , 条 件 的 概念 并 不 是 新 的 , 我 们 只 是 根据 随机 变量 的 特点 , 重 


新 细 述 一 遍 , 引进 一 些 新 的 记号 而 已 . 
2.6.1 ” 某 个 事件 发 生 的 条 件 下 的 随机 变量 


在 某 个 事件 A(P(A) > 0) 发 生 的 条 件 下 ， 随机 变量 X 的 条 件 分 布 列 | 
Daal Cs NA) 


注意 , 对 于 不 同 的 x, {X = z}n 4 是 互 不 相 容 的 事件 , 它们 的 并 为 4. 因此 


P(A)= >_P({X= 7}NA). 
比较 得 到 的 两 个 式 子 , 可 以 看 出 
>》_ pxla(z) =1, 


故 pxla 符合 分 布 列 的 要 求 . 


条 件 分 布 列 的 计算 也 与 无 条 件 分 布 列 的 计算 一 样 , 将 满足 X= zx 
的 试验 结果 的 概率 相 加 , 最 后 除 以 P(4), 便 得 到 pxla(z) 的 值 . 


并 且 属 了 


下 式 定 


六 4 


例 2.12 令 XX 为 抛掷 一 个 均匀 的 6 面体 货 子 所 得 到 的 点 数 , 4 表示 抛掷 后 得 到 


偶数 点 的 事件 . 利用 前 面 得 到 的 公式 
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px|A(k) = P(X = 旭 抛 掷 后 得 到 偶数 ) 
P(X = k 且 X 是 偶数 ) 
P( 抛 括 后 得 到 偶数 ) 
1/3， 若 = 2,4,6， 
人 其 他 . 


例 2.13 一 个 学 生 参 加 某 种 测验 , 他 可 以 多 次 重复 地 参加 测验 , 但 最 多 不 能 超过 


次 . 每 次 测验 以 概率 p 通过 , 而 且 与 前 儿 次 的 测验 结果 独立 . 假定 学 生 已 经 通过 的 


条 件 下 , 他 测验 次 数 的 分 布 列 是 什么 ? 


令 4 是 学 生 最 终 通过 测验 的 事件 (他 最 多 参加 n 次 测验 ). 我 们 引进 随机 变量 


X, X 表示 为 了 通过 测验 所 需要 参加 测验 的 次 数 (假定 容许 他 无 数 次 参加 测验 ). X 


是 一 个 几何 随机 变量 , 其 参数 为 p. 刻画 条 件 的 事件 是 4 = {X < n}. 这 样 


Nn 


P(A)= 2_,(1—p)™ yp, 
m=1 
从 而 , 学 生 测 验 次 数 的 条 件 分 布 列 为 
os 车 = 1:… ,mn, 
px = 1 0 Dp 
0， 其 他 ， 
见 图 2.11 的 说 明 . 
2PxK( 有 2 后 


0 1 2. 多 一 工 辑 有 nl 天 
图 2.11 例 2.13 中 计算 条 件 分 布 列 pxja(k) 的 图 示 说 明 . 首先 将 X 的 无 条 件 分 布 列 px 
进行 修改 : 将 所 有 不 在 4 中 的 , 其 分 布 列 的 值 清 成 0. 然后 将 所 有 的 分 布 列 的 值 


以 P(A4), 进行 归 一 化 , 得 到 条 件 分 布 列 
图 2.12 给 出 了 计算 条 件 分 布 列 更 一 般 的 说 明 . 
2.6.2 ”给 定 另 一 个 随机 变量 的 值 的 条 件 下 的 随机 变量 


设 基 一 个 试验 中 有 两 个 随机 变量 X 和 YY. 我 们 假定 随机 变量 Y 已 经 取 定 
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PXIA (2) 


样本 空间 
Q 


图 2.12 计算 条 件 分 布 列 pxla(z) 的 图 示 说 明 . 对 每 一 个 z, 将 属于 事件 {X = zjn4 的 试验 
结果 的 概率 相 加 , 再 除 以 P(4) 以 归 一 化 , 得 到 pxla(z) 的 值 


个 值 y (py(y) > 0), 这 个 y 值 提 供 了 关于 X 取 值 的 部 分 信息 . 这 些 信息 包含 于 XX 
事件 4 就 


的 给 定 Y 的 值 的 条 件 分 布 列 pxjy 中 . 所 谓 条 件 分 布 列 就 是 pxja, 其 中 
是 事件 {Y = y}: 


pxlY (x|y) = P(X= zlY =Y). 
用 条 件 概率 的 定义 , 我 们 有 


Ea 
a 


i 
pxlY (Z|y) = i 
现在 我 们 固定 y 的 值 (py(y) > 0), 考察 > 的 函数 pxjy(z|y)， 这 个 函数 符合 
X 的 分 布 列 的 要 求 : 对 每 个 z, pxjy(zly) > 0, 并 且 将 这 些 值 累 加 后 得 1. 另外 , 作 
为 z 的 函数 , 其 形状 与 px y(z, 急 相似 ,两 者 相差 一 个 因子 py (y), 这 个 因子 使 得 
pxlY (ZX|y) 满足 条 件 


Djpxly (zly) =1. 


图 2.13 展示 了 条 件 分 布 列 的 特性 . 
利用 公式 


px,y (2,Y) = py (YPpxIY (zy), 
或 利用 

px,y (X,Yy) = px(z)py|lx (yz), 
可 以 计算 联合 分 布 列 . 该 方法 类 似 于 第 1 章 中 的 序 贯 树 形 图 的 乘法 规则 . 下 面 提供 
一 个 例子 . 
例 2.14 ， 霍 许 对 教授 在 为 学 生 答 疑 时 常 有 答 错 问题 的 现象 . 她 每 次 答 错 问题 的 
概率 为 1/4, 而 且 各 题 的 答疑 是 独立 的 ， 每 堂 课 上 , 同学 提问 的 问题 可 能 有 0,1 或 
2 个 , 相应 的 概率 均 为 1/3， 记 X, 了 分 别 为 一 堂 课 上 同学 提问 的 次 数 和 回答 错 
误 的 次 数 . 为 得 到 X 和 了 的 联合 分 布 列 , 我 们 必须 对 每 一 组 值 (z,y) 计算 概率 
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P(X = zi, 天 = 人 攻 . 这 可 以 利用 序 贯 树 形 图 


的 乘法 规则 ( 见 图 2.14 的 说 明 ). 例如 , 在 


课堂 上 , 只 提出 一 个 问题 并 回答 错误 的 概率 为 


px,y(1,1) = px (zt)py|x(y|z) = 


将 联合 分 布 列 切片 
成 为 条 件 分 布 列 pwy( 刘 分 


联合 分 布 列 px vy(%, 纺 


1 


人 一 
3 4 12° 


条 件 分 布 列 pxiy(2l3) 


L 


条 件 分 布 列 pxiy(2|2) 


条 件 分 布 列 pxly(2|1) 


化 


图 2.13 计算 条 件 分 布 列 pxiy (zly) 的 图 示 说 明 . 对 每 一 个 y, 可 以 将 pxly (zly) 看 成 联合 分 


布 列 px,y (x,y) 沿 Y ==y 的 一 个 切片 ， 


且 归 一 化 后 使 得 


Dpxly (zly) =1 


次 


/3 


概率 : 16/48 


X: 提出 的 问题 数 素 回答 错误 的 
问题 数 


概率 : 4/48 


概率 : 12/48 


概率 : 1/48 


概率 : 6/48 


概率 : 9/48 


四 区 0/48 
0 1 2 


列表 形式 的 联合 
分 布 列 Dx. 以 人 切 


图 2.14 计算 例 2.14 中 的 联合 分 布 列 px,y (zx,y) 
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可 将 联合 分 布 列 的 数值 列 成 一 个 表 ( 见 图 2.14). 这 个 表 可 以 用 于 计算 任何 相 
关 事 件 的 概率 . 例如 


P( 稚 许 对 教授 在 普 上 有 回答 错误 的 现象 ) = pxy(1,1) 二 px,y(2,1) 二 px,y(2,2) 
4 6 1 


条 件 分 布 列 也 可 以 用 于 计算 边缘 分 布 列 , 即 有 
px(z) = pxy (7,Y) = >》 py (ypxly (TIy). 
y V 


这 个 公式 就 是 第 1 章 中 的 全 概率 公式 , 不 过 用 了 不 同 的 记号 而 已 . 下 面 是 一 个 例子 . 
例 2.15 考虑 计算 机 网 络 中 的 一 个 信息 传送 器 . 下 面 是 有 关 的 随机 变量 . 
X :给 定 消息 的 传送 时 间 YY :给 定 消息 的 长 度 . 
我 们 知道 给 定 消息 长 度 的 条 件 下 传送 时 间 的 分 布 列 和 消息 长 度 的 分 布 列 . 我 们 希 
望 找 到 传送 一 个 消息 的 时 间 的 (无 条 件 ) 分 布 列 . 
假定 一 个 消息 的 长 度 可 以 取 两 个 可 能 值 : y = 10? 和 wy = 104( 单 位 : 比特 ), 取 
值 的 概率 分 别 为 5/6 和 1/6. 这 样 


5/6, 若 4 一 102, 
py(y) = 


1/6， 若 y= 104. 


传送 时 间 依 赖 于 消息 的 长 度 和 当然 网 络 的 拥塞 程度 , 具体 来 说 , 传送 时 间 为 10-Y 
的 概率 为 1/2, 传送 时 间 为 10-3yY 的 概率 为 1/3, 传送 时 间 为 10-2Y 的 概率 为 1/6. 
这 样 , 我 们 得 到 


1/2， 若 z= 10-2， 1/2， 若 z=1， 
DPxir(zl102) = 41/3， 若 z= 10-1， pxir(zl109 = $1/3， 若 z= 10， 
1/6， 若 z = 1; 1/6， 若 zx = 100. 


为 找到 X 的 分 布 列 , 我 们 利用 全 概率 公式 
Dx(Z) = py (Vpxly (zly), 
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最 后 , 我 们 可 以 将 条 件 分 布 列 的 概念 推广 到 含有 两 个 以 上 的 随机 变量 的 情况 ， 
例如 pxyjz(z,y|z) 或 pxirz(zly 2 的 情况 . 这 种 概念 和 方法 的 推广 是 没有 难度 的 . 


关于 条 件 分 布 列 的 小 结 
设 X 和 了 为 某 一 试验 中 的 两 个 随机 变量 . 
。 条件 分 布 列 与 无 条 件 分 布 列 完全 类 似 , 其 差别 只 是 前 者 是 在 已 知 某 事件 发 
生 的 条 件 下 的 随机 变量 的 分 布 列 . 
。 设 4 为 某 事 件 , P(4) > 0. 随机 变量 X 在 给 定 4 发 生 的 条 件 下 的 条 件 分 
布 列 为 


px A(Z) P(X 时 7|4), 


并 且 满 足 
>》 pxla(z) 一 工 


设 A1,… ,4 是 一 组 互 不 相 容 的 事件 , 并 上 且 形成 样本 空间 的 一 个 分 割 . 进 
一 步 假 定 P(4;) > 0 对 一 切 i 成 立 , 则 


Nn 


Px(7) = > P(Ai)px|a,(7). 


i=1 


(这 是 全 概率 定理 的 一 种 特殊 情况 .) 进一步 假定 事件 B 满足 对 一 切 i 
P(AiN B) > 0, 则 


Nn 


pxIB(2) = 》 了 P(4ilB)pxlana(z)， 


“= 


给 定 Y =y 的 条 件 下 X 的 条 件 分 布 列 与 联合 分 布 列 之 间 有 下 列 关系 


Px,Y (X,Y) > py (VPpx|Y (zy). 


给 定 Y 之 下 的 匀 的 条 件 分 布 列 可 以 通过 以 下 公式 计算 X 的 边缘 分 布 列 : 


Dx(z) = 》 py (Vpxly (zly). 


上 上面 的 结论 可 以 自然 地 推广 到 两 个 以 上 的 随机 变量 的 情况 . 


2.6.3 ”条 件 期 望 


条 件 分 布 列 就 是 一 个 通常 的 分 布 列 , 不 过 它 的 样本 空间 由 条 件 所 限定 的 试验 结 
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果 组 成 , 相应 的 事件 的 概率 变 成 条 件 概 率 . 同样 的 原因 , 条 件 期 望 就 是 通常 的 期 望 ， 


不 过 试验 结果 的 空间 由 条 件 所 限定 的 试验 结果 所 组 成 ,相应 的 概率 和 分 布 列 都 换 
成 条 件 概率 和 条 件 分 布 列 (关于 条 件 方差 的 处 理 是 完全 类 似 的 )， 下 面 列 出 有 关 的 


定义 和 性 质 . 


e 设 4 


望 为 


。 我 们 


对 于 


给 定 YY =v 的 条 从 


设 Ai,.…,， 


关于 条 件 期 望 的 小 结 
设 X 和 了 为 某 一 试验 


的 两 个 随机 变量 . 
为 某 事 件 , P(4) > 0. 随机 变量 X 在 给 定 4 发 生 的 条 件 下 的 条 件 其 


EIX|A] = 2 spxlal®) 


函数 9(X), 我 们 有 


有 


F 下 X 的 条 件 期 望 


A 是 互 不 相 容 的 事 从 
P(4;) > 0 对 一 切 i 成 立 . 则 


区 》 9g(z)pxla(z) 


E[XIY = = 2 


TT 


-DP 


进一步 假定 事件 B 满足 对 一 切 i, P(Ai; B) > 0, 则 


EIX|B] = YP(AB)EIX|AiN 可 


名 


出 下 式 定义 


并 且 形 成 样本 空间 的 一 个 分 割 ， 假定 


TPx|Y (z|y). 


E[X|Aj]. 


EIX|Y = yl. 


上 述 最 后 的 三 个 等 式 适 
可 以 称 为 全 期 望 定 理 . 这 些 定理 表达 了 这 样 的 一 


于 不 同 的 场合 , 但 它们 本 质 上 是 相互 等 价 的 . 它们 都 


个 事实 : “无 条 件 平均 可 以 由 条 件 


平均 再 求 平 均 得 到 .” 通 过 全 期 望 定 理 可 利用 条 件 分 布 列 或 条 件 期 望 计算 无 条 件 期 


望 EBIX]. 现在 验证 三 个 公式 


FP 的 第 一 个 公式 . 先 写 出 全 概率 公式 
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Nn 


Dx(z) = 》 P(Ai)pzlai (|Ai), 


= 


再 在 两 边 乘 z 并 对 一 切 x 求 和 , 得 到 


= > zpx(z) 
= > 7> PC4i)ps 4i(Z4i) 


= PC)EIEK4i 


其 他 两 个 公式 的 验证 是 类 似 的 . 
例 2.16 ” 设 波士顿 的 一 台 计 算 机 通过 数据 网 络 发 送 消息 : 发 往 纽约 的 概率 为 0.5， 
发 往 芝 加 哥 的 概率 为 0.3， 发 往 旧 金山 的 概率 为 0.2. 传输 的 时 间 X 是 一 个 随机 变 
量 , 发 往 纽约 时 的 平均 时 间 为 0.05 秒 , 芝加哥 为 0.1 秒 , 旧金山 为 0.3 秒 . 利用 全 期 
望 公式 很 容易 得 到 


E[X] = 0.5 .0.05 + 0.3.0.1 十 0.2.0.3 = 0.115( 秒 ). 


例 2.17 (几何 随机 变量 的 均值 和 方差 ) 你 一 次 又 一 次 地 写 一 个 计算 机 软件 , 每 写 
一 次 都 有 一 个 成 功 的 概率 p. 假定 每 次 成 功 与 否 与 以 前 的 历史 记录 相互 独立 . 令 X 
是 你 一 直到 成 功 为 止 所 写 的 次 数 (最 后 一 次 你 成 功 了 ). X 的 期 望 和 方差 是 多 少 ? 
由 于 X 是 一 个 几何 随机 变量 , 其 分 布 列 为 
px(k) = (1 —p)* 1y, k= 1,2,: 
X 的 均值 和 方差 的 公式 是 


EIX]= Dk(1 -pp var(X)= D>_(k— ELX])(l — pp. 
k=1 k=1 


计算 上 面 的 无 穷 级 数 有 一 些 麻烦 . 为 了 使 计算 简单 化 , 我 们 利用 全 期 望 定理 ， 记 
41 = {X=1}= {第 一 次 就 写成 功 }, 4s = {X > 1} = {第 一 次 没有 成 功 }. 如 果 第 
一 次 就 号 成功 (X = 1), 这 样 


EI[X|X=1]=1. 


如 果 第 一 次 失败 (X > 1), 我 们 浪费 了 一 次 努力 , 必须 重新 开始 . 这 样 
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EI[X|X>1=1+EX]. 


因此 , 由 全 期 望 定理 
EIX] =P(X=1EIXIX=1]+P(X > DEIXIX >1] 
=p+ (1—p)(l + EX)). 


由 此 可 得 


相似 地 , 我 们 有 


E[X?|X=1=1, E[X*X>1=El+X)"]=1+2EX]+ELX?), 


故 
E[X*]=p:1+(1—p)(l+2EIX] + EIX?)), 
从 而 
E[X3?] 三 1 十 2(1 = 
再 利用 E[X] = 1/p, 得 到 
E[X?*] = = . 
D” Dp 


最 后 我 们 得 到 

2 1 1 1-p 

pp pi 

例 2.18 (两 个 信封 的 悖 论 ) ”这 是 一 个 引起 广泛 兴趣 的 智力 测验 问题 , 它 涉 及 有 关 


var(X) = E[X?*] — (E[X])? = 


主持 人 给 你 两 个 信封 , 并 且 告 诉 你 两 个 信封 里 有 现金 , 其 中 一 个 信封 里 的 钱 是 
另 一 个 信封 里 的 m 倍 (m > 1, 且 是 一 个 整数 ). 当 你 打开 其 中 一 个 信封 , 看 到 信封 
里 面 的 钱 数 以 后 , 你 可 以 收 下 这 个 信封 里 面 的 钱 作为 你 的 奖金 , 也 可 以 要 另 一 个 
时 里 的 钱 作 奖 金 . 有 什么 好 的 策略 可 使 你 拿 到 较 多 的 奖金 ? 

下 面 有 一 个 推理 , 其 结论 是 有 利于 换 信 封 的 ， 令 4 是 你 打开 的 信封 , B 是 你 
可 能 换 的 信封 . 令 > 和 vy 分 别 为 信封 4 和 B 中 的 钱 数 . 论证 如 下 : y = z/m 或 
y = mz, 两 种 情况 发 生 的 概率 分 别 为 1/2. 因此 , 给 定 x, 则 y 的 期 望 值 为 


gy a 
5 3° "73 mj 区 二 化 化 ， 


Zllk 


主 


过 


因为 当 m > 1 时 1 二 +m? > 2m. 这 样 , 你 应 该 总 是 转向 信封 B. 当 你 转向 B 的 时 
候 , 由 于 同样 的 理由 , 又 得 转 回 到 4. 这 样 陷 入 了 矛盾 之 中 . 


在 这 个 悖 论 中 , 有 两 个 假设 是 有 瑕 疯 的 . 

(a) 对 于 两 个 信封 内 的 钱 你 无 法 先知 先觉 . 当 给 定 z 的 值 以 后 , 你 只 知道 y 的 
值 等 于 z 的 m 倍 或 1/m 倍 . 当然 , 你 没有 理由 假定 哪 种 情况 更 有 可 能 . 

(b) 用 随机 变量 X 和 Y 表示 两 个 信封 内 的 钱 数 . 若 


EIYIX=z]>7 


对 一 切 xz 成 立 , 那么 “总 是 转向 Y” 能 够 得 到 更 多 的 期 望 奖 金 . 

现在 仔细 分 析 这 两 种 假设 . 

假设 (a) 是 有 正 疲 的 , 因为 它 没有 说 明 相 应 的 模型 . 事实 上 , 一 个 确定 的 模型 ， 
各 种 事件 , 包括 X 和 YY 的 可 能 取 值 , 都 应 该 有 确定 的 概率 . 有 了 X,Y 的 概率 知识 ， 
X 的 值 一 定 会 提供 Y 取 值 的 某 些 知识 . 例如 某 人 选择 2 元 放 在 一 个 信封 内 , 2 的 
取 值 范围 为 [z, 引 | 内 的 整数 , 并 且 服 从 某 个 分 布 率 , 而 在 另 一 个 信封 内 放 入 z 的 m 
音 的 钱 数 . 然后 , 你 以 等 概率 从 两 个 信封 中 随机 地 抽取 一 个 信封 , 看 里 边 的 钱 数 X 
的 值 . 当 X 的 值 比 z 大 的 时 候 , 你 可 以 肯定 你 拿 到 的 信封 里 的 钱 数 是 比较 多 的 , 因 
此 你 不 必 换 信封 . 车 你 拿 到 的 钱 数 等 于 z 的 值 , 那 你 可 以 肯定 另 一 个 信封 中 的 钱 数 
比 z 多 , 因此 你 必须 换 信封 . 大 致 上 可 以 这 么 说 , 如 果 你 若 能 够 知道 X 的 值 域 或 取 
值 的 可 能 性 , 你 就 可 以 知道 X 的 值 比较 小 , 还 是 比较 大 , 这 样 就 可 以 决定 是 否 应 该 
换 信封 了 . 

从 数学 上 说 , 一 个 概率 模型 中 , 我 们 一 定 能 够 找到 X 和 (信封 4 和 B 中 的 
钱 数 ) 的 联合 分 布 率 . X 和 了 的 联合 分 布 率 可 由 两 个 信封 中 的 钱 数 的 最 小 者 2 的 
分 布 率 所 确定 . 设 2 的 分 布 率 为 pz. 则 对 一 切 >， 


pxy(mz2) = pxy (2 md) = 3 人 

对 于 不 具有 (mz,z) 或 (z,mz) 的 形式 的 (zx,%)， 
px,y (X,Yy) = 0. 

当 pxy (x,y) 给 定 以 后 , 我 们 可 以 用 以 下 换 信 封 的 规则 : 

换 信封 的 充 要 条 件 为 E[YI|X= zx] > z. 
按照 这 个 规则 , 可 以 确定 换 或 者 不 换 信封 . 
现在 的 问题 是 : 按照 上 述 的 模型 和 转换 规则 是 否 可 以 按照 某 些 x 的 值 , 转换 信 
封 , 而 另 一 些 x 的 值 不 能 转换 ? 一 般 情况 下 是 可 以 的 , 例如 早先 举 出 的 2 的 值 域 为 
有 界 集合 的 情况 , 就 可 以 实现 这 样 的 转换 规则 . 然而 , 下 面 的 一 个 稍 显 怪 僻 的 例子 ， 
使 得 你 总 是 换 信封 . 
执 搓 一 枚 均匀 的 硬币 , 直到 出 现 正面 为 止 . 记 NN 为 抛掷 硬币 的 次 数 . 此 时 你 将 
mA 元 放 进 一 个 信封 内 , 将 mN-! 元 放 进 另 一 个 信封 内 . 令 X 是 你 打开 的 那个 信 
封 (信封 4) 内 的 钱 数 , Y 是 另 一 个 信封 (信封 B) 内 的 钱 数 . 


i 
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现在 假定 4 中 只 有 1 元 钱 , 显然 B 中 含有 mm 元 , 你 应 该 换 信封 . 当 4 内 含有 
mm 元 的 时 候 , B 中 或 者 含有 mm”! 元 钱 或 mo?+l 元 钱 . 由 于 N 具有 几何 分 布 列 ， 
我 们 有 

P(Y=m"THX=m’") PE=mnflX=m7) P(N=n+1) 1 


P(Y=m"™-HX=m") P(Y=m™-l,X=m") P(N = 7n) 2 
这 样 我 们 有 


2 1 
P(Y=m™ X=m")= 3 PY em 3 
Rs 2 1 2+ m2 

EI 信封 B 中 的 钱 数 X=m"] = 5m ?+3m"t = eR 


(2 十 m2)/(3m) > 1 的 充 要 条 件 是 m2--3m+2>0 或 (mm -DO -2) >0. 若 站 >2， 
则 
E[ 信 封 B 中 的 钱 数 |X = m”] > m”. 


这 样 , 为 了 获得 最 大 的 期 望 奖金 , 你 应 该 转向 信封 B. 在 这 个 例子 中 , 由 于 对 一 切 x 


EIYI 和 = 了 > 2， 


你 选择 B. 直观 地 看 , 利用 全 期 望 定理 , 应 该 有 结论 EIY] > E[X]. 然而 , 由 于 X 和 
Y 具有 相同 的 分 布 列 , 结论 E[Y] > E[X] 不 可 能 成 立 . 实际 上 , 我 们 有 


这 个 结论 与 对 一 切 x 有 EIYIX = xz] > x 并 不 矛盾 . 当 E[Y] = E[X] = ce 的 情况 
下 , 利用 关系 式 EB[Y|X = x] > z 而 转换 信封 并 不 能 够 改进 平均 奖金 ， 从 而 解决 了 


悖 论 问题 . 


2.7 独 立 性 


现在 讨论 与 随机 变量 相关 的 独立 性 的 概念 ， 这 些 概念 与 事件 之 间 的 相互 独立 
性 的 概念 是 相同 的 ( 见 第 1 章 ). 只 需 引 进 由 随机 变量 导出 的 相关 的 事件 , 再 讨论 这 
些 事 件 的 相互 独立 性 . 
2.7.1 ”随机 变量 与 事件 的 相互 独立 性 

随机 变量 与 事件 的 独立 性 的 概念 与 两 个 事件 的 相互 独立 性 的 概念 是 相同 的 . 其 
基本 思想 是 刻画 条 件 的 事件 的 发 生 与 否 不 会 对 随机 变量 取 值 提供 新 的 信息 . 更 具体 
地 说 , 随机 变量 X 独 立 于 事件 4 是 指 


P(X= 7z 且 4=P(X=2ZP)=px()P( 对 一 切 z 成 也 ， 
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这 个 条 件 等 价 于 : 对 任何 zx, 随机 事件 {X = z} 与 事件 4 相互 独立 . 由 条 件 分 布 列 
的 定义 ， 


P(X= zxH A)= pxla(7)P(A), 


所 以 , 只 要 P(A4) > 0, 随机 变量 X 与 事件 4 的 独立 性 与 下 面 的 条 件 是 等 价 的 : 


Dxl4(z) == px(7X) 对 一 切 z 成 并 . 


例 2.19 ”考虑 独立 地 抛掷 一 枚 均匀 的 硬币 , 共 抛 据 两 次 . 令 XX 是 正面 向 上 的 次 数 ， 
4 是 正面 出 现 的 次 数 为 偶数 . X 的 (无 条 件 ) 分 布 列 为 


1/4， 若 z=0， 
px(z)= 二 41/2， 若 z=1， 
1/4， 若 人 x=2,， 


而 P(4) = 1/2. 由 条 件 分 布 列 的 定义 知 pxla(z) = P(X = zx 且 A)/P(4): 


1/2， 若 z= 0， 
Dxla(Z) = 一 40， 若 zx=1， 
1/2， 若 z=2. 


显然 , 由 于 px 和 pxja 不 相同 , X 和 事件 4 是 不 独立 的 . 若 随 机 变量 是 这 样 定 义 
的 : 第 一 次 抛掷 得 正面 向 上 , 则 取 值 为 0, 若 第 一 次 抛掷 得 反面 向 上 , 则 取 值 为 1. 
显然 这 样 定义 的 随机 变量 从 直观 上 看 出 与 事件 4 是 相互 独立 的 . 当然 也 可 从 独立 
性 的 定义 直接 验证 . 
2.7.2 ”随机 变量 之 间 的 相互 独立 性 


随机 变量 之 间 的 相互 独立 性 与 随机 变量 和 随机 事件 的 相互 独立 性 的 概念 是 完 
全 相同 的 . 随机 变量 X 和 YY 称 为 相互 独立 的 随机 变量 , 若 它们 满足 


pxY (Ty) = px(z)py (四 对 一 切 xz 和 y 成 立 . 


这 等 价 于 对 于 任意 > 和 vy, 随机 事件 X = z 和 了 = y 相互 独立 ， 最后, 由 公式 
pxy (zy) = pxjY (Zly)py(y) 可 知 随机 变量 X 和 YY 的 相互 独立 性 的 条 件 等 价 于 


pxjy (Z|y) =DPx(z) 对 一 切 z 和 一 切 满 足 py(y) > 0 的 y 成 立 . 


直观 上 ,了 和 X 的 独立 性 意味 着 Y 的 取 值 不 会 提供 XX 取 值 的 信息 
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在 给 定 事件 4 的 条 件 下 (P(4) 必须 大 于 0! ) 也 可 以 定义 两 个 随机 变量 的 条 
件 独立 性 . 在 给 定 事件 4 的 条 件 下 , 所 有 的 事件 的 概率 都 换 成 关于 条 件 4 的 条 件 
概率 . 例如 , 我 们 称 随机 变量 X 和 了 在 给 定 正 概率 事件 4 的 条 件 下 是 条 件 独立 的 ， 


如 果 它 们 满足 


P(X=7z,Y =Yy4)=P(X=7z|A)P(Y = YA), 对 一 切 z 和 成 立 ， 


或 者 利用 本 章 的 记号 
PX,Y|A(T,Y) = px|A(Z)py|A() 对 一 切 x 和 yy 成 并 . 
这 个 结论 与 下 式 是 等 价 的 : 
px|Y,A(Z|y) = pxl4(Z) 对 一 切 zx 和 一 切 满足 py(y) > 0 的 y 成 立 


在 1.5 节 中 曾经 提 到 事件 的 条 件 独立 性 并 不 包含 独立 性 , 反之 亦 然 . 在 随机 变量 的 
场合 下 情况 也 是 如 此 . 图 2.15 中 的 例子 说 明了 这 种 情况 . 


.国王 = 
国 本 |- 
加 四 加 四 
HU 
1 2 3 4 


图 2.15 表 中 数据 说 明 条 件 独 立 与 独立 并 不 等 价 . 表 中 的 分 布 列 说 明 X 和 YY 是 相互 不 独立 
的 . 例如 


[ 


T 


pxly(1l1)=P(X=1Y =1)=0#zP(X=1)= px(l). 


男 一 方面 , 若 将 事件 4= {X < 2,Y > 3}( 图 中 阴影 部 分 的 试验 结果 之 集合 ) 作为 条 
件 事件 , 则 随机 变量 X 和 YY 是 条 件 独 立 的 . 我 们 有 


1/3， 若 z = 1， 


pxlY,A(X|y) = i 
2/3， 右 z=2， 


对 于 y==3 和 wy = 4 都 成 立 


设 随机 变量 X 和 YY 相互 独立 , 则 


E[XY] 

系列 等 式 得 到 : 
= >, 2 ,rypxy (2,Y) 
2 2 TYPX (T)PpY( 


-Pane ) Pr 人 
XJE[Y]. 


若 X 和 了 相互 独立 , 则 对 任意 函数 g 和 hh, 下 


= E[X]E[Y), 


这 个 事实 可 从 下 面 的 一 


y) (根据 独立 性 ) 


二 FE 


的 


事实 : 


完全 类 似 的 计算 说 明 这 相 
式 成 立 ; 


Elg(X)n(¥)] 
事实 上 , 当 我 们 理解 到 这 样 的 事实 
相互 独立 性 可 以 草 涵 9(X) 和 h(Y) 的 相互 独立 
习题 . 


Elg(X)EIR(Y)]. 


的 时 候 , 上 述 结论 就 是 明显 的 了 : 
生 . 形式 的 验 订 


由 X 和 Y 的 
E, 留 作 本 章 末尾 的 


现在 考虑 两 个 独立 随机 变量 X 和 了 的 和 X+Y, 我 们 希望 求 出 和 + 的 方差 . 
随机 变量 的 方差 具有 如 下 的 特性 : 随机 变量 加 上 一 个 常数 以 后 , 其 方差 保持 不 变 . 利 
用 这 个 特点 , 我 们 考虑 将 随机 变量 进行 平移 , 使 得 期 望 归 0. 令 针 = 久 一 EIX],Y = 
Y 一 EIY], 这 样 


var(X +Y)= var(XX+ 


在 上 述 一 系列 的 等 式 的 证 明 中 , 我 人 


+ 2XY 十 立 2] 

+ 2E[XY] + EIY?] 
+- EIY?] 

+ var(Y) 

H var(¥). 


昌 了 独立 随机 变量 


三 


] 利 用 了 EIX7Y] = 0. 这 是 利 月 
的 性 质 的 结果 (由 于 三 和 了 


HY 分 别 是 独立 随机 变量 X 和 YY 的 函数 , 所 以 它们 也 相 
互 独立 ), 即 


E[XY] = ELXIEIY] = 0. 
总 之 , 独立 随机 变量 的 和 的 方差 等 于 它们 的 方差 之 和 . 与 之 对 比 , 随机 变量 之 和 的 
期 望 总 是 等 期 望 的 和 , 而 不 需要 任何 条 件 . 


随机 变量 
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关于 独立 随机 变量 的 性 质 的 小 结 
设 在 某 一 试验 中 , 4 是 一 个 事件 , 满足 条 件 P(4) > 0, 又 设 和 和 并 是 在 同一 
个 试验 中 的 两 个 随机 变量 . 
。 称 X 为 相对 于 事件 4 独立 , 如 果 满 足 


Dxl4(Z) =Dx(Z) 对 一 切 x 成 立 ， 


即 对 一 切 z, 事件 { 和 = x} 与 4 相互 独立 . 
e。 称 X 和 TY 为 相互 独立 的 随机 变量 , 如 果 对 一 切 可 能 的 数 对 (zx,y), 事件 
{X =x} 和 {Y=} 相互 独立 ,或 等 价 地 


px,y (ZY,Y) = 二 Px(X)py (四) 对 一 切 z 和 y 成 立 . 
。 若 久 和 YY 相互 独立 , 则 


E[XY] = E[X]E[Y. 


进一步 地 , 对 于 任意 函数 g 和 hh, 随机 变量 9(X) 和 hh(Y) 也 是 相互 独立 的 ， 
并 且 


。 若 革 和 YY 相互 独立 , 则 


var(X+Y)= var(X)+var(Y). 


2.7.3 ” 几 个 随机 变量 的 相互 独立 性 


前 面 的 关于 随机 变量 相互 独立 的 讨论 可 以 很 自然 地 推广 到 两 个 以 上 随机 变量 
相互 独立 的 情况 . 例如 , 我 们 称 随机 变量 X、Y 和 2 是 三 个 相互 独立 的 随机 变量 ， 
如 果 它 们 满足 


PDX,Y,Z (TY 2) 一 Dx(Zz)poyr(y)pz(2) 对 一 切 zz 成 也. 


设 X、 Y、2 是 三 个 相互 独立 的 随机 变量 , 则 任何 形 如 A(X)、g(Y)、h(2) 的 三 
个 随机 变量 也 是 相互 独立 的 . 相似 地 , 任何 两 个 随机 变量 g(X,Y) 和 h(2Z) 也 是 相 
互 独立 的 . 但 是 形 如 g(X,Y) 和 h(Y,2) 的 两 个 随机 变量 通常 不 是 相互 独立 的 ， 
为 它们 都 受 公 共 的 随机 变量 Y 的 影响 . 若 用 互 不 干扰 的 试验 结果 来 解释 独立 性 , 则 
EF 述 这 些 性 质 在 直观 上 是 非常 清楚 的 . 但 是 形式 的 证 明 有 些 烦 琐 . 幸运 的 是 , 直观 
和 数学 理论 通常 是 一 致 的 . 这 主要 是 , 独立 性 的 定义 本 身 反映 了 对 直观 的 解释 . 


男 


泽 
Pe 


2.7.4 ”若干 个 相互 独立 的 随机 变量 的 和 的 方差 

相互 独立 的 随机 变量 的 和 出 现在 许多 重要 的 场合 . 例如 在 测量 问题 中 , 为 了 减 
少 测量 误差 , 通常 是 把 者 干 个 独立 的 测量 值 的 平均 值 作为 目标 物 的 测量 值 . 在 处 理 
若干 个 相互 独立 的 随机 源 的 累计 效果 时 , 也 会 遇 到 随机 变量 和 的 方差 问题 . 此 处 我 
们 仅 提 供 几 个 例子 , 后 面 的 儿童 将 会 回 到 这 个 主题 . 

在 以 下 的 例子 中 , 我 们 将 利用 下 面 的 重要 性 质 : 设 Xi … ,X 为 相互 独立 的 
随机 变量 序列 , 则 

Var(Xi 十 … 十 Xn) 二 Var(Xi1) 十 … 十 Vvar(X,). 

这 个 结论 可 以 通过 反复 应 用 两 个 独立 随机 变量 之 和 的 方差 公式 var(X + 了) = 
var(X) 十 var(Y) 而 证 得 . 
例 2.20 (二 项 分 布 和 泊 松 分 布 的 方差 ) 考虑 独立 地 抛掷 一 枚 硬币， 共 抛 掷 
n 次 , 每 次 正面 向 上 的 概率 为 p。， 对 每 个 i, 令 X; 表示 刻画 第 《次 抛掷 硬币 的 
伯 努 利 随机 变量 ， 即 当 第 i 次 抛掷 后 正面 向 上 ，X; = 1， 否则 X; = 0. 这 样 
针 = 天 十 Xz 十 … 十 Xn 是 二 项 随机 变量 . 由 于 各 次 抛 括 硬 币 是 相互 独立 的 , 随机 
变量 六 ,… ,Xn 是 相互 独立 的 , 故 可 利用 独立 随机 变量 和 的 方差 公式 


var(X)= 2 var(Xi) = np(1 — p). 


2.2 节 已 经 指出 , 参数 为 和 的 泊 松 随机 变量 可 以 看 作 二 项 随机 变量 的 极限 (二 
项 随机 变量 的 参数 n 和 p 满足 n 一 co, p 一 0, 并 且 保 持 np = 和 )， 这样 , 对 应 
地 求 二 项 分 布 的 期 望 和 方差 的 极限 , 可 形式 地 得 到 泊 松 分 布 的 期 望 和 方差 : E[Y] = 
var(Y) = 入. 我们 已 经 在 例 2.7 中 证 明了 公式 E[Y] = 入 现 证 公式 var(Y) = 入 


Bl | 


由 此 得 到 


var(Y) = EIY?] — (E[Y])? = AA+1)— 和 X=A. 


独立 同 分 布 的 随机 变量 的 加 权 和 的 均值 和 方差 的 公式 是 样本 均值 作为 随机 变 
量 的 期 望 的 估计 的 统计 过 程 的 理论 基础 . 下 面 是 一 个 典型 的 例子 . 
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例 2.21 (样本 均值 的 期 望 和 方差 ) ”我 们 希望 估计 总 统 的 支持 率 . 为 此 , 我 们 随机 
地 选取 n 个 选民 , 询问 他 们 的 看 法 . 令 X; 表示 第 i 个 被 问 的 选民 的 态度 : 
1， 若 第 i 个 被 问 的 选民 支持 总 统 ， 
”10， 若 第 i 个 被 问 的 选民 不 支持 总 统 . 
我 们 假定 庆 ,… ，X 为 独立 同 分 布 的 伯 努 利 随机 变量 , 其 均值 为 p, 方差 为 p(1-p). 
此 处 我 们 将 p 认为 选民 支持 总 统 的 概率 , 并 且 将 调查 得 到 的 平均 反应 5,, 称 为 样本 
均值 


DC 


Nn 


RA 
由 于 5% 是 Xi ,Xn 的 线性 函数 , 我 们 有 


= $=1 


再 利用 随机 变量 Xi1,… , X 的 独立 性 , 得 到 


var( Su) = Sy 去 vr(Xi) = 一 一 


i=1 


Sn 被 认为 是 文 持 率 p 的 一 个 很 好 的 估计 , 这 是 因为 它 的 期 望 刚 好 是 p, 而 反映 估计 
精度 的 方差 当 n 增 大 的 时 候 变 得 越 来 越 小 . 

注意 , 上 例 中 即使 X; 不 是 伯 努 利 随机 变量 , 结论 
var(X 


var(Sn) = 


仍然 成 立 , 只 要 Xi; 之 间 相 互 独立 , 期 望 和 方差 与 i 无关. 这 样 样本 均值 仍然 是 随机 
变量 的 公共 期 望 的 一 个 好 的 估计 , 当 样 本 量 n 增 大 的 时 候 , 5,, 的 方差 变 得 越 来 越 
小 . 在 第 5 章 讨论 大 数 律 的 时 候 , 我 们 将 详细 讨论 样本 均值 的 这 个 特性 . 
例 2.22 (用 模拟 方法 估计 概率 ) ”在 许多 实际 问题 中 , 有 时 候 计算 一 个 事件 的 概率 
是 十 分 困难 的 . 然而 我 们 可 以 用 物理 方法 或 计算 机 方法 重复 地 进行 试验 , 这 些 试验 
结果 可 以 显示 某 事件 是 否 发 生 . 利用 这 种 模拟 方法 可 以 以 很 高 的 精度 计算 某 事 件 的 
概率 . 我 们 可 以 独立 地 模拟 试验 n 次 , 并 且 记 录 n 次 试验 中 事件 4 发 生 的 次 数 m， 
用 m/n 去 近似 概率 P(4). 例如 在 抛 撕 硬币 试验 中 , 为 计算 概率 p = P( 出 现 正面 )， 
我 们 独立 地 抛掷 n 次 , 用 比值 (记录 中 出 现 正面 的 次 数 /n) 去 交 近 概率 p. 

为 计算 这 种 方法 的 精确 度 , 考虑 nn 个 独立 同 分 布 的 伯 努 利 随机 变量 Xi,… ,XX， 
其 公共 分 布 列 为 
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此 处 X; 相当 于 第 i 次 试验 中 事件 4 的 示 性 


取 值 


为 1， 


区 一 


的 取 值 就 是 概率 P(4) 的 估计 值 
P(A)(1 


2.8 


事件 4 不 发 生 的 时 候 , X; 的 取 值 为 0. 而 随机 变量 


Rr 


. 由 例 2.21 的 结果 知 , X 的 
一 P(4))/n. 故 n 很 大 时 , X 提供 了 P(A4) 的 精 而 


小 \ 


FE 变量 , 即 当 事件 4 发 生 的 时 候 , X; 的 


n 


期 望 为 P(A), 方差 为 
的 估计 . 


结 和 讨论 


在 概率 模型 中 ,试验 结果 是 


些 数 值 


的 时 候 , 随机 变量 是 一 个 很 自然 的 工具 . 


本 章 集中 讨论 离散 随机 变量 量 


Zz~: 


特别 地 , 我 们 引入 了 一 些 基 本 概念 


.为 离散 随机 变量 建立 了 型 


E 论 架 


构 和 引进 了 相应 的 工 


同 程度 上 刻画 了 离散 随机 变量 的 概率 特征 


的 期 望 和 方差 , 可 以 不 用 工 的 分 布 列 , 而 上 只 需 利用 X 的 分 布 列 


, 例如 分 布 列 、 均 值 和 方差 . 这 些 概念 在 不 
征 . 同时 , 我 们 指出 , 为 了 计算 Y = g(X) 
即 可 . 特别 地 , 当 g 


是 一 个 线性 函数 Y= aX 十 5 的 时 候 , X 和 YY 的 期 望 和 方差 具有 下 列 关系 
ElY] = aE[X] TD var(Y) = a2var(X). 
我 们 也 讨论 了 若干 具体 的 离散 随机 变量 , 并 且 导 出 了 分 布 列 、 均值 和 方差 , 其 
结 末 如 下 . 
某 些 具体 的 离散 随机 变量 的 小 结 
[a, 5b] 上 的 离散 均匀 分 布 (a,5 为 整数 ) 
1 芳 se ss 
二 省 石上 二 a,a 十 1,.…,b, 
0， 其 他 ， 
EIX] = Ob oa 也 一 oO 一 2 十 2 


2 
参数 为 p 的 伯 努 利 随 机 变量 (刻画 


px(k) = | 


EIX| =7, 


bp, 


一 次 试验 成 功 或 失败 的 概率 模型 


1 工 一 P， 


var(X) 


12 


若 天 = 1 
若 大 = 0， 


= Pp(1—p). 
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参数 为 p 和 n 的 二 项 随机 变量 (刻画 n 次 独立 重复 的 伯 努 利 试验 中 成 功 次 数 的 


随机 变量 ) 
六 (ro, k=0,1,...,n, 
E[X] = 


参数 为 p 的 几何 随机 变量 (在 独立 同 分 布 的 伯 努 利 试验 序列 中 刻画 直到 第 一 
成 功 所 需 的 试验 次 数 的 随机 变量 ) 


np, var(X)= np(l—»p). 


p 
参数 为 入 的 泊 松 随机 变量 ( 当 n 很 大 , p 很 小 , 和 = np 时 , 用 于 还 近 二 项 分 布 的 
随机 变量 ) 


[A 人 二 由 5 


卫 [X] = 入 var(X) = 入 , 


我 们 也 讨论 了 多 元 随机 变量 和 它 的 联合 分 布 列 和 条 件 分 布 列 , 以 及 与 之 相关 的 
条 件 期 望 . 条 件 分 布 列 通常 还 是 定义 一 个 概率 模型 的 起 始点 , 它 可 以 用 于 计算 其 他 
的 概率 值 , 例如 边缘 分 布 列 或 联合 分 布 列 或 相应 的 期 望 值 . 特别 地 , 当 条 件 分 布 列 
pxiv(z| 给 定 以 后 , 有 以 下 几 种 情形 . 

(a) X,Y 的 联合 分 布 列 可 由 下 式 计算 : 


DXY(Z， y)=py(y )pxlY (x|y). 
这 个 结果 可 以 推广 到 多 于 两 个 变量 的 情况 , 例如 : 


PX,Y,Z(T,Y,z) = pz(2)pylz(Yy|2)pxly,z (Ty, z). 


这 个 公式 与 第 1 章 中 利用 序 贯 树 形 图 计算 概率 的 方法 类 似 . 
(b) X 的 边缘 分 布 列 可 用 下 式 计算 ; 


Px(z) = >》 py (Vpxly (2,Y). 


公式 与 第 1 章 中 的 全 概率 公式 类 似 . 
) (p) 中 的 全 概率 公式 可 以 推广 成 为 全 期 望 公式 , 以 计算 随机 变量 X 的 期 望 : 


之 加 EIX| 世 = 引 . 


类 似 于 事件 的 相互 独立 性 , 我 们 也 引进 了 独立 随机 变量 的 概念 . 特别 地 , 我 们 
引进 了 独立 随机 变量 的 和 : 


我 们 证 明了 


变量 的 概念 是 概率 论 


2.2 


二 


是 关于 随机 变量 


EPIX] = EIX1] 


X= XL 下 5 下 区 7 


十 … 十 E[Xn],， var(X) =var(X1) 十 十 var(Xn). 


在 第 3 章 中 , 我 们 


节 分布 列 
MIT 足球 队 在 周末 计划 有 两 


上 述 公式 中 , 关于 随机 变量 和 的 期 望 的 公式 , 并 不 要 求 随机 变量 之 间 的 独立 性 , 但 


的 和 的 方差 的 公式 却 要 求 随机 变量 之 间 的 独立 性 


将 本 章 中 的 概念 和 方法 推广 到 一 般 的 随机 变量 的 情况 . 随机 


FP 最 基本 的 概念 


习 题 


概率 为 0.7, 两 场 比赛 的 输 
启 球 或 平局 的 概率 是 相等 的 


场 比赛 . 第 一 场 比赛 不 败 的 概率 为 0.4, 第 二 场 比赛 不 败 的 
访 是 相互 独立 的 . 如 果 在 一 场 比赛 中 不 败 , 那么 他 们 在 比赛 中 
并 且 与 男 一 场 比赛 的 结果 是 相互 独立 的 . MIT 足球 队 在 一 


场 比赛 中 的 得 分 情况 是 这 样 的 : 启 球 得 2 分 , 平局 得 1 分 ， 
MIT 足球 队 得 到 的 总 分 的 分 布 列 . 


. 你 参加 了 一 个 有 500 人 的 


松 分 布 台 近 的 方法 计 


. 费 希 尔 和 斯 帕 斯 基 两 人 下 国际 象棋 , 按 规定 第 


输 球 得 0 分 . 写 出 这 个 周末 


铬 会 , 有 人 与 你 生日 相同 的 概率 有 多 大 ? 分 别 利用 精确 解 和 泊 


[ 算 这 个 概率 (为 了 计算 位 


,排除 2 


] 29 日 这 种 特殊 的 情况 ). 


个 启 得 一 盘 者 为 比赛 的 胜 者 .车 两 人 连 


续 10 盘 和 局 , 则 宣称 两 人 言 和 . 在 每 盘 棋 中 费 希 尔 启 棋 的 概率 为 0.4, 输 棋 的 概率 为 0.3， 
和 棋 的 概率 为 0.3, 每 盘 棋 之 间 的 输赢 是 相互 独立 的 . 


(a) 费 希 尔 赢得 比赛 的 概率 有 多 大 ? 


(b) 两 人 下 棋 的 盘 数 的 分 布 列 是 什么 ? 


. 一 个 因特网 服务 商 备 有 50 个 调制 解 调 器 以 供 1000 个 用 户 


使 用 . 估计 每 一 给 定时 刻 , 每 


个 用 户 使 用 因特网 的 概率 为 0.01, 而 且 使 用 者 之 间 相 互 独立 . 


(a) 在 给 定 的 时 刻 ， 


网 用 着 的 调制 解 调 器 数 的 分 布 列 是 什么 ? 


(b) 
(c) 


重复 (a) 题 , 利 
计算 在 某 一 时 刻 
白松 允 近 分 布 列 


Pe 


泊 松 分 布 列 逼近 使 用 网 络 连接 的 用 户 数 的 分 布 列 ， 
使 用 人 数 超过 调制 解 调 数 的 概率 . (不 


分 别 进行 计算 .) 


i 


精确 分 布 列 和 (b) 中 提供 的 


.在 互连网 中 一 个 信息 
于 储存 信息 源 送 来 的 


包 通 信 系 统 的 组 成 是 : 一 个 临时 储存 信息 包 的 缓冲 器 , 这 个 缓冲 器 用 


日 


;县 包 ; 一 条 通信 线路 , 从 缓冲 器 获取 信息 包 , 将 它们 传送 给 接收 者 . 


系统 将 工作 时 间 划 分 为 两 个 时 段 , 在 第 一 时 段 , 系统 将 信息 源 送 来 的 信息 包 放 在 缓冲 器 


内 . 信息 源 送 来 的 信 | 
器 能 够 
包 将 被 对 


昌 包 的 个 数 是 随机 的 , 其 分 布 列 为 泊 松 分 布 列 , 分 布 的 参数 为 和 . 缓冲 
嵌 存 的 信息 包 最 大 个 数 为 b, 若 信 息 包 送 来 时 , 缓冲 器 已 经 存 满 的 时 候 , 那些 信息 
E 弃 . 在 第 二 时 段 , 将 缓冲 器 中 的 信息 包 传送 出 去 , 传送 出 c 个 信息 包 (0 < c < %b， 
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c 是 一 个 给 定 的 常数 . 当 组 冲 器 中 的 信息 包 的 个 数 小 于 c 的 时 候 , 就 将 缓冲 器 中 的 信息 包 
全 部 传送 出 去 ). 
(a) 假定 在 第 一 时 段 开始 时 , 缓冲 器 中 的 信息 包 的 个 数 为 0. 分 别 写 出 第 一 时 段 结束 时 
和 第 二 时 段 结束 时 缓冲 器 中 的 信息 包 的 个 数 的 分 布 列 . 


10. 


11.” 


(Pp) 求 在 
闻 尔 特 人 队 和 湖 


(a) 求 p 的 范 
(b) 将 (a) ; 


第 


中 


开 
这 


围 
行 


LE， 


样 . 
(a) 


对 山 
.你 刚 租 


找 出 你 # 
列 : (1 时 当 
把 钥匙 


即 对 于 任何 的 值 ， 


所 尔 特 人 队 更 合算 . 


了 一 所 大 


0 你 只 


方 3 房产 经 纪 人 给 
一 把 一 


大 门 所 需 的 试验 钥匙 次 数 


你 试 开 
. (2) 每 次 试 开 


失败 以 后 , 在 多 
失败 以 后 


(b) 


分 布 列 司 


等 于 (n 十 1)p 的 最 大 整数 . 证 


在 之 
泊 松 分 


当 上 在 


重 


(a) 的 情形 , 这 次 经 纪 人 给 
.二 项 分 布 列 的 递 推 计算 公式 . 设 X 是 一 个 二 
可 以 从 Px(0) = 


a 


p)™ 


尔 5 
巴 地 试 . 


匙 上 
从 5 
你 10 


把 钠 


口 ， 


把 钥匙 ， 


时 段 有 信息 包 被 缓冲 器 丢弃 的 概率 . 
人 队 在 季 后 赛 中 相遇 , 双方 
赢 一 场 球 的 概率 为 p, 而 各 次 说 球 是 相互 独立 上 
, 使 得 对 于 骨 尔 特 人 队 来 说 , n = 二 5 比 n = 3 合算 . 

找 出 p 的 范围 使 得 n= 2k + 


钥匙 , 可 以 打开 5 扇 门 . 5 把 钥匙 外 


内 分 布 允 


用 一 个 记号 ， 这样 


是 


打 n 场 比赛 , 其 中 nn 为 奇数 . 凯 尔 特 人 队 
的 . 


1 比 n=2k 


1 


NAN 


1. 在 下 面 不 同 


[0 呈 


L 


试 . 


P 随 机 地 选 一 提 


其 中 每 一 扇 门 有 两 把 完全 


项 随机 变量 , 相应 的 参数 为 n 和 p. 证 


开始 , 利用 下 


面 的 


p nk 


k* 的 范围 内 音 
布 列 的 形式 
区 间 [0, 入 


时 是 单 
火柴 问 


单 


上 
名 


下 降 的 . 


题 一 


柴 . 每 次 吸 ; 


七 合 
柴 盒 昌 


盒 时 , 另 一 个 
数学 家 在 掏 火 柴 盒 的 时 候 , 从 左 口 


么 相应 


解 令 X 是 一 个 火 


个 火柴 盒 


布 列 为 


的 火柴 数 


4 人 


袋 的 火柴 盒 


* 国 


i 


日 


. 设 X 是 


的 整数 点 上 变化 时 是 单调 


巴 拿 赫 的 吸烟 习惯 引出 的 问题 . 一 
时 , 他 随机 地 从 左右 
的 概率 分 别 为 1/2), 而 各 次 掏 火 柴 上 
是 相等 的 , 都 等 于 


~ 1p ki1 


k), 


递 推 公式 计算 


k=0,1,...,n—1. 


. 二 项 分 布 列 的 形式 . 设 X 是 一 个 二 项 随机 变量 , 相应 的 参数 为 n 和 p. 
明 分 布 列 px(k) 在 [0,k*] 的 范围 


令 jr 是 小 
k 


内 相对 于 


个 ; 


松 随机 变量 , 相应 的 参数 为 A. 证 
上 升 的 , 而 在 (入 ， 


作爱 吸烟 
袋 攀 出 一 盒 火 柴 点 香 ; 


明 2 
co) 中 的 整数 点 上 


的 数学 家 的 左右 口袋 各 放 一 
使 中 掏 ， 


的 习惯 是 相互 独立 的 . 假定 天 


时 (从 左右 两 个 口袋 中 掏 


a 


Nn. 


的 结 


结论 从 是 什么 2 


这 位 数学 家 从 口角 


F 始 的 时 候 , 两 个 
袋 里 掏 出 来 的 火柴 盒 是 


的 火柴 根 数 的 分 布 列 是 什么 ? 现 


在 将 上 述 问题 稍 作 推 


袋 掏 火 某 盒 的 概率 为 p, 从 右 口 


某 盒 为 空 的 时 候 另 一 个 火柴 盒 中 火柴 


相同 的 钥匙. 


的 根 数 . 对 于 天 = 0,1,…. 


完全 


假设 之 下 分 别 算出 分 布 
下 次 试 开 的 时 候 不 会 重 试 这 


pr 


F 明 其 


一 


于 或 


是 非 降 的 , 而 


分 布 列 px(k) 
变化 


盒 火 


a 


袋 的 火 


目 合 是 一 个 空 


天 
袋 掏 的 概率 为 1 一 p, 那 


) 7 


的 分 


记 Lx( 或 R:) 分 别 为 这 样 的 随机 事件 当 第 一 次 发 现 一 个 火柴 盒 为 空 火柴 盒 的 时 候 , 这 
盒 是 左 (或 右 ) 口袋 里 的 火柴 盒 , 并 且 右 (或 左 ) 火 烷 傅 里 剩 下 6 根 火 柴 . X 
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我 们 将 选 左 口袋 看 成 一 次 成 功 , 选 右 口 袋 看 成 一 次 失败 , 则 Li 是 这 样 的 事件 : 前 2n 一 
次 试验 中 成 功 了 n 次 , 在 2n -大 十 工 次 试验 的 时 候 也 是 成 功 . 这 样 


1 /2n— ky ATN2 
raw- > ) 人) ， k=0,1,...,n. 
利用 对 称 性 , P(Li) = P(Rx), 可 得 


px (kh) =P(L#) + P(R:) = I (3) ee 


Nn 


对 于 稍 作 推广 的 问题 , 即 从 左 口袋 取 火 柴 的 概率 为 p, 从 右 口 袋 取 火柴 的 概率 为 1 一 p， 
利用 相似 的 推理 得 到 


这 样 


Px(k) 二 了 PURE) + P(Rz) 


| 
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3 
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be 


k=0,1,...,n. 


12.” 泊 松 逼近 公式 的 证 明 . 考虑 二 项 随机 变量 的 分 布 列 , 其 相应 的 参数 为 n 和 p. 证 明 当 


9 00, D 一 0， 


且 np 保持 为 固定 的 常数 入 的 时 候 , 这 个 三 项 分 布 列 趋 于 参数 为 和 的 泊 松 分 布 列 . 
解 ” 利 用 关系 式 入 = np, 写 出 二 项 分 布 列 如 下 : 


nl 元 二 起 


ZXK( 有 一 Rr (一切 


nk k! 


固定 有, 令 光一 co, 我 们 得 到 


将 
五 
> 

| 
六 
访 
1 
党 
Real 
人 
™ 
iis 
S 
! 
8 
至 
入 
高 


_A 和 ” 
px(k)—e 区 


散 随 机 变量 


了 
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2.3 节 随机 变量 的 函数 

13. 一 对 夫妇 有 5 个 孩子 , 他 们 又 另外 收养 了 2 个 女孩 , 组 成 一 个 家 庭 . 他 们 亲生 的 5 个 孩 
子 中 , 每 个 孩子 为 男孩 或 女孩 均 是 1/2 的 概率 , 彼此 相互 独立 . 写 出 这 个 家 庭 中 女孩 数 的 
分 布 列 . 

14. 设 X 是 一 个 随机 变量 , 取 值 于 集合 {0, 1,… ,9}, 取 每 个 值 的 概率 为 1/10. 
(a) 求 出 和 = X mod (3) 的 分 布 列 . 
(b) 求 出 Y=5 mod (XX 十 1) 的 分 布 列 . 

15. 设 KK 是 一 个 随机 变量 , 取 值 于 [n,n] 中 的 整数 ， 取 每 个 值 的 概率 为 1/(2n 十 1)， 求 
Y = In(X) 的 分 布 列 , 其 中 X=al*l, 而 a 是 一 个 正 数 . 


2.4 节 期望、 均值 和 方差 
16. 设 X 是 一 个 随机 变量 , 其 分 布 列 为 


T2/Ja， 若 z= 一 3, 一 2, 一 1,0,1,2,3， 
px(7x) = 
0， 其 他 . 


(a) 求 出 a 和 E[X]. 
(b) 随机 变量 2 = (X 一 E[X])? 的 分 布 列 是 什么 ? 
(c) 利用 (b) 的 结果 , 计算 X 的 方差 . 
(d) 利用 公式 var(X) = 并, (x 一 EB[X])? px(zx), 计算 X 的 方差. 
17. 可 将 一 个 城市 的 温度 看 成 一 个 随机 变量 , 其 均值 为 10°C, 标准 差 也 是 10"C. 如 果 某 一 天 
的 温度 在 均值 的 一 个 标准 差 的 范围 内 变化 , 则 称 这 一 天 的 温度 是 正常 的 . 现在 如 果 温 度 
] °F 来 表示 , 正常 天 气 的 温度 范围 应 该 怎么 表达 ? 
18. 设 a 和 5 是 两 个 正 整数 , 满足 条 件 a < b . 令 X 是 一 个 随机 变量 ， 以 相等 的 概率 取 
2i,a i<5b. 求 X 的 期望 和 方差 . 
19.* 10 个 盒子 中 的 某 一 个 放 有 奖品 . 为 确定 起 见 , 将 这 10 个 盒子 编 上 号 , 由 1 号 到 10 号 . 用 问 
问题 和 回答 问题 的 方法 可 以 逐步 将 奖品 所 在 的 位 置 确定 下 来 . 下 面 是 两 种 问 问题 的 方法 : 
(a) 枚 举 法 . 用 这 样 的 问题 问 :“ 奖 品 是 不 是 在 盒子 k 中 ?” 
(b) 二 分 法 . 用 排除 法 把 将 近 一 半 的 盒子 淘汰 , 例如 可 用 这 样 的 问题 进行 排除 : “奖品 所 
在 的 盒子 的 号 码 是 不 是 小 于 或 等 于 k?” 
分 别 在 两 种 方法 之 下 计算 问 问题 次 数 的 期 望 值 . 
解 
(a) 不 妨 设 问题 是 这 样 问 的 : 第 i 个 问题 是 “奖品 是 不 是 在 盒子 i 中 ?”, 而 奖品 是 以 
1/10 的 概率 在 盒子 i 中 . 故 问 i 个 问题 才 猜 中 奖品 的 概率 为 1/10. 这 样 平均 猜 中 
奖品 的 次 数 为 


下 1 
和 10 :55 = 5.5. 
(b) 假定 第 一 个 问题 是 : “奖品 所 在 的 盒子 上 是否 满足 k < 5?” 若 回答 为 “是 ”, 则 第 二 
个 问题 为 “奖品 所 在 的 盒子 是 否 满 足 天 过 2?” 若 回答 为 “是 ”, 则 奖品 就 在 “1， 
2” 之 内 . 再 问 一 个 问题 : “奖品 所 在 的 盒子 是 否 满足 有 < 1?” 就 可 以 确定 这 个 奖 


品 了 . 这 样 , 车 奖品 在 盒子 “1” 或 “2” 内 , 只 需 问 三 个 问题 即 可 确定 奖品 的 位 置 . 利 
用 这 种 方法 可 知 , 一 共有 6 种 位 置 , 需要 问 三 个 问题 才能 确定 其 位 置 , 另外 有 4 种 
位 置 , 需要 问 四 个 问题 才能 确定 下 来 . 而 奖品 在 每 一 种 位 置 的 概率 为 1/10. 这 样 要 
确定 奖品 的 位 置 , 需要 问 问题 的 平均 个 数 为 


20. 巧克力 工厂 开展 了 一 个 宣传 活动 , 在 一 些 巧克力 糖 中 放 了 金奖 券 , 赁 这 个 奖券 可 以 到 工厂 
参观 并 可 随意 品尝 各 种 巧克力 . 假定 一 包 巧 克 力 糖 内 含 金 奖券 的 概率 为 p. 求 出 为 拿 到 
金奖 券 所 需要 购买 的 巧克力 糖 的 包 数 的 均值 和 方差 . 
21. 圣彼得堡 悖 论 ， 抛 掷 一 枚 均匀 的 硬币 , 直到 出 现 反面 向 上 为 止 . 假定 每 次 抛 搓 是 独立 的 . 
若 你 抛掷 了 zm 次 , 你 可 以 获得 2” 元 . 你 得 到 的 钱 数 的 期 望 值 是 多 少 ?” 你 愿意 付 多 少 钱 玩 
这 个 游戏 呢 ? 
22. 有 两 枚 硬币 , 将 它们 同时 抛掷 的 时 候 , 其 中 第 一 枚 正面 向 上 的 概率 为 p, 第 二 枚 正面 向 上 
的 概率 为 9. 连续 地 同时 抛掷 这 两 枚 硬币 , 直到 出 现 一 枚 正面 向 上 , 另 一 枚 反面 向 上 为 止 . 
假定 所 有 的 抛 搓 是 相互 独立 的 . 
(a) 写 出 抛掷 次 数 的 分 布 列 、 期 望 值 和 方差 . 
(b) 最 后 一 次 抛掷 得 到 第 一 枚 硬币 正面 向 上 的 概率 有 多 大 ? 
23. (a) 连续 抛掷 一 枚 均匀 的 硬币 , 直到 连续 出 现 两 次 正面 向 上 或 反面 向 上 为 止 . 写 出 抛掷 
次 数 的 分 布 列 、 期 望 值 和 方差 . 
(b) 现在 假定 连续 抛 搓 一 枚 均匀 的 硬币 , 直到 出 现 正 面向 上 , 紧 接 着 出 现 反 面向 上 为 止 . 
写 出 抛掷 次 数 的 分 布 列 、 期 望 值 和 方差 . 
2.5 节 多 个 随机 变量 的 联合 分 布 列 
24. 某 股票 经 纪 人 买 了 甲 股票 100 股 , 乙 股 票 200 股 . 令 和 X 和 YY 分 别 为 
期 的 价格 变动 . 假定 X 和 YY 的 联合 分 布 列 为 二 元 集合 
—2<7z<4, —l<y—rz<l 


中 的 整数 格 点 上 的 均匀 分 布 . 
(a) 写 出 XX 和 YY 的 边缘 分 布 列 和 均值 
(b) 写 出 经 纪 人 的 平均 利润 . 
25. 某 一 班 上 有 7m 个 学 生 参 加 一 个 测验 , 测验 共有 mm 道 题目 . 假定 学 生 ;i 上 交 了 前 mi 道 题 
目的 答案 , i = 1,… ,n. 
(a) 教师 随机 地 从 这 些 答案 中 选 出 一 份 答案 , 记 作 ( J), 其 中 工 为 学 生 的 号 码 (I < 
{,… ,n}), 7 为 题目 的 号 码 . 假定 所 有 的 答案 是 以 相等 的 可 能 性 被 选中 的 . 计算 了 
和 J 的 联合 分 布 列 和 边缘 分 布 列 . 
(b) 假定 学 生 i 对 j 道 题目 能 够 正确 回答 的 概率 为 pi,;. 同时 假定 一 道 题目 回答 正确 可 
以 得 a 分 , 否则 得 5b 分 . 计算 学 生 i 所 得 的 总 分 的 期 望 值 . 
26. 几 个 随机 变量 的 最 小 值 的 分 布 列 . 你 的 高 尔 夫 成 绩 是 一 个 随机 变量 ， 其 得 分 的 分 布 是 
{101…… ,110} 上 的 均匀 分 布 . 为 了 改进 成 绩 , 你 决定 将 三 天 的 最 小 分 数 作为 你 的 分 数 
X, 即 X 等 于 min{X1、X2、X3}, 其 中 X1、X。、X3 表示 你 三 天 的 分 数 , 并 且 相 互 独立 . 


、 乙 两 个 股票 在 


wa 


未 一 上 日 
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了 


27.” 


28.” 


(a) 计算 X 的 分 布 列 . 

(b) 若 以 六 作为 你 的 得 分 , 其 期 望 值 比 原来 的 三 天 的 平均 得 分 改进 了 多 少 ? 

多 项 分 布设 有 一 个 山 子 , 具有 7 个 面 , 标记 为 1,… ,7. 将 人 般 子 连续 转动 n 次 . 假定 在 

每 次 转动 的 时 候 第 i 面 出 现 的 概率 为 pi, 并 且 各 次 转动 是 相互 独立 的 . 记 Xi 为 n 次 转 

动 中 , 第 i 面 出 现 的 次 数 . 

(a) 写 出 Xi ,X 的 联合 分 布 列 px ,x (ki1,:… ,kr). 

(b) 写 出 X; 的 期 望 与 方差 . 

(e) 求 EDC2O]G 关 旋 

解 

(a) 设 n 次 转动 后 得 到 一 个 转动 结果 序列 (试验 结果 ), 这 个 序列 中 第 i 面 出 现 ki 次 ， 
i 二 1,… ,7. 这 个 转动 结果 序列 出 现 的 概率 为 028 .pir .以 后 ,… ,为 特征 的 
试验 结果 形成 一 个 集合 (事件 ), 这 个 事件 中 的 试验 结果 的 个 数 为 多 项 式 系数 ( 见 1.6 


nN 加 nl 
ky ker) kl... kl 


Nn 
PxX1,7 ,Xr (Kl, , kr) = [ke x a ja “pr, 


其 中 ki; > 0,i = 1,… 7, 有 十 …: 十 kr 二 n, 在 其 他 情况 下 pxi,… ,x (ki,… ,kr) = 0. 

(b) 随机 变量 X; 是 一 个 二 项 随机 变量 ,相应 的 参数 为 n 和 pi;， 这 样 E[Xi;] = npi,， 
var(Xi) = npi(l — pi). 

(@) 设 i 关 记 记 于 (或 十) 为 伯 努 利 随机 变量 , 当 第 上 次 转动 山子 的 时 候 出 现 i( 或 
站) 就 取 值 1, 否则 取 值 0. 注意 , pz = 二 0 以 及 对 于 41 关 kk,,s 和 YY,i 相互 独立 
(因此 E[Yi,xrY,] = ppp) 我 们 得 到 


E[XiX;] = E[(Yii + + Yin)(Yi t+ + Yn)] 
= n(n— 1)E[Y,1Y,2] 


= n(n— 1)pip;. 


智力 测验 问题 。 智力 测验 答题 的 规则 是 这 样 确定 的 . 一 
的 回答 次 序 . 对 于 问题 i, 你 正确 回答 的 概率 为 pi. 若 你 回答 正确 , 就 可 以 拿 到 奖金 vi, 并 
有 权利 选择 下 一 个 问题 回答 . 你 第 一 次 回答 错误 后 , 你 不 但 得 不 到 这 个 问题 的 奖金 , 而 
失去 了 继续 回答 问题 的 权利 , 但 可 以 保留 以 前 得 到 的 奖金 总 额 . 为 了 达到 最 大 的 期 望 总 
奖金 , 证 明 你 应 该 按 piv;/(1 一 pi) 的 非 增 的 次 序 选择 你 所 要 回答 的 问题 , 即 pivi/(1 一 pi) 
大 的 问题 优先 回答 . 
解 ”将 问题 {1,2,.… ,n} 的 回答 顺序 抽象 化 成 为 这 些 问题 的 一 个 排列 工 二 (i,2,… , 记 ) 
首先 回答 的 问题 是 如 ,其 次 是 io,.…， 所 谓 最 优 排列 是 指 按 最 优 排列 顺序 回答 问题 能 获 
得 最 大 的 期 望 总 奖金 . 记 


共有 个 问题 , 你 可 以 选择 任意 


~ 
公 
品 


一 


Pivi 
w(i) = Tp 


29.” 


为 问题 i 的 权 值 . 我 们 称 排列 工 = (i1,i2,… ,i) 中 相 邻 的 “问题 对 ”(ix,ip41) 为 “逆序 
对 ”, 如 它们 满足 条 件 


w(ig) < Ww (ip41). 

为 了 消除 这 个 逆序 对 , 只 需 将 排列 工 中 的 与 如 +1 的 位 置 对 调 , 即 变 成 一 = (i1,iz,…， 
i bpt1 bg; bp+42 ,in)， 对 于 (ir41,ix) 就 不 是 逆序 对 了 . 现在 我 们 分 别 计算 二 
和 二 的 期 望 总 奖金 ; 


EL 的 总 奖金 |] =pa oa 十 papisvis 十 :十 DaDia PinVin, 


EI 的 总 奖金 ] =pivii 十 … 十 pa … “Pirp_1Vig 1 十 Di Dir_1Pigt1Vig+1 
十 Di Pirp_1Pir+iDir Vin 十 Di PirroVigt2 十 十 Di Pin Vin. 


将 两 者 比较 得 


E 厂 的 总 奖金 ] 一 EE[ 工 的 总 奖金 ] = (w(ix+1) —w(ig)) (pi “Pir_1 (1—pi)(1—pir41)) >0 


此 可 以 看 出 , 对 于 有 逆序 对 的 排列 工 , 不 可 能 达到 最 高 的 期 望 总 奖金 . 
现在 , 最 优 排列 只 能 在 没有 逆序 对 的 排列 中 找 . 而 没有 逆序 对 的 排列 就 是 按 权 值 w(i) 
非 增 的 排列 . 我 们 利用 下 面 的 两 个 事实 : 
(a) 任意 两 个 按 权 值 非 增 的 不 同 排列 工 和 L', 可 以 通过 一 系列 的 改变 问题 对 (ix,ix+1) 
的 顺序 由 工 变 成 五， 而 每 次 改变 顺序 的 两 个 问题 (ix,ir41) 的 权 值 是 相同 的 , 即 
wig) = wip41). 
(b) 由 于 改变 顺序 的 两 个 问题 的 权 值 相同 , 由 前 面 的 计算 知 , 改变 顺序 前 后 的 两 个 排列 

的 总 奖金 的 期 望 值 是 相同 的 . 
以 上 两 点 可 知 , 只 要 排列 是 按 权 值 w(i) 非 增 的 , 这 个 排列 就 是 最 优 的 排列 , 其 期 望 总 
奖金 达到 最 大 . 
容 斥 恒等式 ， 设 41, A2,… ,An 为 n 个 事件 . 记 51 = {il <ign},S2={(i,i2)|l < 
和 < i2 < nj}, 更 一 般 地 , 令 Sm 为 满足 条 件 1 < 计 <i 记 <…<im < n 的 m 重 指标 
ii 的 集合 . 证 明 下 列 容 斥 恒等式 成 立 : 


P(UR_1Ax)= > PC4)- >》 P(AanN Ai,) 
i€S1 (i1,i2)€ES2 
+ P(AiNAiNAi) ot+(-1)" "PNA). 
(i1,i2,i3)E€ES3 

提示 :” 设 Xi; 为 事件 4A; 的 示 性 函数 , 即 当 事 件 4; 发 生 的 时 候 , X; 取 值 为 1, 当 事 件 
A;i 不 发 生 的 时 候 , X; 取 值 为 0. 将 随机 变量 (1 一 Xi1)(1 一 X2)… (1 一 Xn) 与 相关 的 事 
件 联系 起 来 . 
解 ”我 们 将 事件 B = Ux_1Ahx 与 随机 变量 Xi1,… ,Xn 联系 起 来 . 事件 B° 发 生 等 价 于 
所 有 的 变量 Xi ,Xn 取 值 为 0, 或 等 价 于 条 件 Y = (1 一 Xi)(1 一 X2)… (1 一 Xn)=1. 
于 YY 只 能 取 值 0 或 1, 我 们 有 


P(B°) = P(Y = 1) = EIY]. 


30.” 


| > sx) tte 


(i1,i2)€ES2 
注意 , Xi; 与 4; 的 下 列 种 种 关系 式 
E[Xi] = 了 P(4i)， E[Xi, Xis] = P(Ai; N Ai,), 
E[Xi, Xi Xis] P(Ai N Ai, NN Ai,), E[X1X2 3 “Xn] = P(NME-1Ax), 


就 可 以 得 到 容 斥 恒等式 . 


阿尔 文 的 数据 库 中 有 n 个 记录 . 由 于 软件 的 故障 , 地 址 和 人 员 的 对 应 关系 处 于 完全 随机 
的 状态 . 阿尔 文 给 每 位 朋友 送 一 张 生日 卡 , 但 是 地 址 完全 乱 了 . 在 这 种 情况 下 , 至 少 有 一 
位 朋友 得 到 他 本 人 的 卡 的 概率 有 多 大 ? 提示 : 利用 容 斥 恒等式 . 
解 ” 记 Ax 为 第 kk 张 卡 送 到 正确 的 地 址 . 我 们 有 下 列 一 系列 公式 
_1_ (nl)! 
A 
P(AsN Ay) = P(AD)P(AAR) = 工 -二 - = ©, 
1 1 3) 
国人 nn—ln—2 nl 
等 等, 最 后 还 有 
将 这 些 结果 代入 容 斥 恒等式 
P(rs 14x) = > P( P(A i) 2 >， P(Ai Nn Ais) 
i€S1 (i1,i2)E€S2 
+ > Pan4an4a)-…+(-D" PNA:). 
(i1,i2,i3)€S3 
得 到 
(7 一 1]) n\ (no—2)! n\ (no 3)! n_1l 
P(Uk=1Ax) © nl 四 nl © nl LD) | 
1 1 | 
人 


当 很 大 的 时 候 , 这 个 概率 趋 近 于 1 一。 :. 


2.6 节 条件 


31. 


独立 地 抛掷 一 个 6 面体 , 共 4 次 . 令 X 为 抛 拓 得 到 1 点 的 次 数 , 了 为 2 点 的 次 数 . X 和 
Y 的 联合 分 布 列 是 什么 ? 


32. 丹尼尔 . 伯 努 利 的 共同 生活 问题 ， 设 有 m 对 夫妻 共 后 


生活 着 . 假定 若干 年 以 后 每 个 人 活 


着 的 概率 为 p， 
着 的 对 数 . 对 任 
独立 地 抛 
续 出 现 
望 值 . 
解 
的 期 望 值 . 


可 a, 求 E[S|A = al. 


33.” 


然而 ， 


六 一 枚 硬币 若干 次 . 每 次 抛 搓 的 时 候 硬 币 正面 向 上 的 概率 为 p. 我 们 假定 ， 
次 正面 向 上 或 连续 出 现 两 次 反面 向 上 的 时 候 , 抛 据 就 停止 , 写 出 抛掷 次 数 的 


彼此 相互 独立 . 记 4 为 若干 年 后 活着 的 人 数 , 8 为 若干 年 后 夫妻 都 活 


有 


种 办 法 是 直接 计算 X 的 分 布 列 , 其 中 X 就 是 抛掷 硬币 的 次 数 , 然后 再 计算 X 
于 硬币 是 非 均 匀 的 , 计算 X 的 分 布 列 有 一 些 麻烦 , 我 们 利 


] 全 期 望 公 


式 并 适当 地 分 割 样本 空间 的 方法 
反面 ) 的 事件 . 记 gq = 1 一 p 表示 抛掷 硬币 出 现 


进行 计算 . 记 五 (或 T) 表 万 
反面 的 概率 . 


示 第 上 次 抛掷 出 


于 万 和 玫 


疯 正面 (或 
成 样本 空 


了 


间 的 一 个 分 割 且 P(Hi) = p, P(T 1) gd, 利 qd- 期 望 


EIX] 


再 次 利用 全 期 望 定 理 , 得 到 


= PEIXIH1] + gE[XIT]. 


E[X|IHi|] = pEI[XIHiN H2|+ aqE[X|HiNT|= 2p+a(l + EIXIT)), 


此 处 我 们 利用 ] 


两 个 公式 , 其 中 


一 个 公式 是 


E[X|H! 何 万 >] = 


这 是 因为 两 次 出 现 正面 向 上 以 后 应 该 停止 扫 掷 . 另 一 个 公式 是 
EIXIE NT] = 1+ ELXIT), 
这 是 因为 , 若 抛掷 没有 


9 抛掷 的 结果 . 相似 的 分 析 可 得 


结束 , 为 了 结束 抛掷 所 需要 抛 抑 重 币 的 平均 次 数 只 依赖 于 最 后 


E[X|ITi| = 2g9+p(1+ ELX|Hi]). 


利用 所 得 到 的 两 个 关系 式 和 p 十 g = 1, 可 解 得 
2 
PEXIm] = 于 全 ， 
— pg 
_2+9 
E[X|Hi| = T= 
这 样 2 2 
2 十 9 2 十 D 
EIXI|=»-.: | 3 
四 1— pq 1— pg 
利用 等 式 p 十 g = 1, 得 到 
+ pg 
E[X] = 
[X] Tg 
当 p=g=1/2 时 , E[X] = 3. 也 可 以 证 明 2 < E[X] < 3 对 一 切 p 成 立 . 


114 第 2 章 离散 随机 变量 


34.” 一 个 蜂 蛛 在 一 条 直线 上 追 苍蝇 . 每 一 秒 钟 , 苍蝇 以 相等 的 概率 p 向 左 或 向 右 移 动 一 步 , 以 
概率 1 一 2p 在 原 处 不 动 . 而 里 蛛 每 一 秒 钟 总 是 向 苍蝇 的 方向 移动 一 步 . 在 开始 的 时 候 , 苍 
晶 与 蜘蛛 相距 D 步 . 而 D 是 一 个 取 值 为 正 整 数 的 随机 变量 , D 的 分 布 列 为 已 知 . 如果 
蜘蛛 与 苍蝇 的 位 置 相 重合 , 苍蝇 就 被 捉 住 . 现在 的 问题 是 苍蝇 被 蜘蛛 提 住 的 期 望 时 间 是 
什么 ? 
解 ” 记 了 为 蜘蛛 捉 住 苍蝇 的 时 刻 , 定义 
Aa : 开始 的 时 候 蜂 蛛 和 苍蝇 的 距离 为 a 步 ， 
Ba : 开始 一 秒 后 蜘蛛 和 苍蝇 的 距离 为 a 步 . 
显然 As 和 Ba 都 是 随机 事件 . 我 们 的 步骤 是 首先 利用 (条 件 的 ) 全 期 望 定理 计算 
E[T|Ai], 然后 计算 ET|A42], 相似 序 贯 地 计算 EIT|Aal]. 最 后 我 们 利用 无 条 件 的 全 期 望 定 
理 计 算 E[T]. 
我 们 有 


As=(AaNBa)U(AsNBai)U(AsNBa 2)， 若 d>1. 
上 式 说 明 这 样 的 一 个 事实 : 开始 的 时 候 , 苍蝇 与 蜂 蛛 距离 为 dd > 1, 那么 1 秒 钟 后 它 
们 的 距离 为 a ( 如 果 苍 晶 离 开 蜂 蛛 ) 或 4 一 1 ( 如 果 苍 晶 保 持 不 动 ) 或 4 一 2 ( 如 果 
苍蝇 向 蜘蛛 方向 移动 ). 当 苍蝇 与 蜘蛛 距离 为 1 的 时 候 ， 
41=(4nB)U(4nBo). 
利用 全 期 望 定 理 , 我 们 得 到 
EIT|Aa] = P(Ba|Aa)EIT|Aa nN Bal 
+P(Ba_i|Ad)EIT|IAanN Bu] 
二 P(Ba-2|Aa)E[T|Aan Ba2]， 若 d>1， 


和 
E[TIAi 一 P(Bi|Ai)EIT|IA1 NN Bi1| 十 P(Bo|Ai)EIT|IA1 NN Bol, d 一 1. 


根据 问题 中 提供 的 数据 , 我 们 有 
P(Bi|Ai1) = 27， P(Bo|Ai1) = 1— 2p, 
EITIA1N Bi]=1+EITIA), EIT|AiN Bo] =1, 


因此 利用 这 些 数 据 , 可 以 得 到 


E[T|Ai] = 2p(1 + E[T|A1]) + (1 ~ 2»), 


EITIAi] = 


将 这 些 数据 应 用 到 q = 2 的 情况 , 得 到 


1 
1 一 2p- 


也 [7 42] = pEI[IT|A2, NN B2| 十 (1 到 2p)E[T|A2 NN Bi] +pE[IT|A> Nn Bol. 


同时 我 们 有 
ElT|A2 N Bo] = 
ElT|A2N Bi]=1+E[TIA), 
EI[T|A2> NN B2| 一 上 十 也 [大 42]， 


将 这 些 量 代入 E[T|A2] 的 表达 式 中 , 得 到 


ElT|A2] = p(1 + EITIA2]) + (1 — 2p)(1 + ELTIA])+ 


= + ETIAD) + (1 -2p) (1+ 173) +r 


上 式 经 过 整理 得 到 


2 
对 于 d > 2, 我 们 可 以 得 到 


E[T|Aaz] = p(1 + E[T|Aa]) + (1 — 2p)(1 + EITIAa_1]) +p(1 + EI[TIAa_2]). 


于 了 ZI4] 和 BIT|IA2] 已 经 求 得 , 利用 上 式 可 以 递 推 地 将 一 切 EIT|Aal] 求 得 最后， 
给 定 D 的 分 布 列 , 利用 全 期 望 公 式 可 以 求 得 工 的 期 望 值 : 


E[T] = 0 E[T|Aal. 


35.” 利 用 单个 随机 变量 的 函数 的 期 望 值 规 则 验证 下 面 的 期 望 值 规 则 : 
Elg(X,Y)] = > >》 9(2,Y)px,y (2,Y). 


然后 再 将 所 得 到 的 期 望 值 规则 应 用 到 线性 函数 的 特殊 情况 , 得 到 公式 


ElaX +bY] = aE[X] + bEIY], 


其 中 a 和。 是 常数 . 
解 ”我 们 利用 全 期 望 定理 将 问题 归结 为 单个 随机 变量 的 函数 的 期 望 规则 


Elg(X 二 )E[g(X,Y)Y = 
= -Ym )E lg(X, WY =Y 
= Dm y ) 2 9 x,Y)PxIY (zly) 
三 2 2 9 px (ey) 


注意 , 在 上 式 的 第 三 个 等 式 用 到 了 关于 单个 随机 变量 X 的 函数 g(X,y) 的 期 望 值 规则 . 
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对 于 线性 函数 , 由 期 望 值 规则 得 到 
ElaX +bY] = >》 (ar+ by)px,y (zy) 


兰 a》 7z>》 pxy(r,Yy) 二 D》 ypxy(z,y) 


=a> zpx(z)+D> ypr( 
y 
= aE[X] + bE[Y]. 
36.” 条件 分 布 列 的 乘法 规则 ， 设 X、Y、2 为 随机 变量 . 


(a) 证 明 
DX,Y,2 (7T,Y, 2) = px(T)pYIx (YLT)pzIx,Y (zz, Y). 

(b) 将 此 公式 解释 成 1.3 节 的 乘法 规则 的 特殊 情况 . 

(c) 将 乘法 规则 推广 到 多 个 随机 变量 的 情况 . 

解 

(a) 我 们 有 


PX,Y,Z (X,Y, 2) P(X 7z,Y =Yy,Z 2) 
P(X =zZ)P(7 =y,2Z = z|X = 27) 
P(X=27)P(Y =yX=27z)P(Z=zX=7,Y =Y) 


= px(T)pY|x (YT)pzIx,Y (Z|z, y). 
(b) 将 公式 写成 
P(X=7x,Y =Yy,2Z=2)=P(X=27z)P(Y =yX=7r)P(Z=zX=7,Y = Y) 


的 形式 , 化 成 了 1.3 节 中 的 乘法 规则 . 
(c) 推广 的 形式 是 


PX1,.… ,Xn (2Z1， 人 ,Tn) 
= PXx1 (Z1)Pxolxa (ZalZ1) “PXn|X1,.…: ,Xn 1 (Zn|Z1， -i 
37.” 泊 松 随机 变量 的 分 解 。 传送 器 发 出 的 信号 是 一 个 0-1 信号 . 发 1 的 概率 为 p, 发 0 的 概 

率 为 1 一 p， 和 以 前 所 发 的 信号 独立 . 现在 假定 在 一 定时 间 内 发 出 信号 的 个 数 为 泊 松 
随机 变量 , 其 参数 为 . 证明 在 同一 段 时 间 内 发 出 1 的 个 数 也 是 泊 松 随机 变量 , 其 参数 为 
DA 入 . 
解 设 X 和 YY 分 别 为 同一 段 时 间 内 发 出 的 信号 1 和 0 的 个 数 . 那么 Z = 和 二 Y 就 是 
这 一 段 时 间 内 发 出 信号 的 个 数 . 利用 条 件 概率 公式 , 我 们 有 

P(X=n,Y=m)=P(X=n,Y = mlZ=n+m)P(Z =n+m) 

— 入 n+i+m 
= (rear Sn 


n (n+ m)! 


_ e PMp)” eH A p))™ 
nl ml 
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de EC) 
2 ml! 


_ ee ?OAp)” OXI-p) XL-p) 


这 说 明 X 是 一 个 泊 松 随机 变量 , 参数 为 Xp. 


2.7 节 ”独立 性 


38. 爱丽 丝 在 上 班 路 上 要 通过 四 个 路 口 


(a) 写 出 爱丽 丝 所 遇 到 的 红 灯 数 上 
(b) 假定 遇 到 每 个 红 灯 会 等 


? 


每 一 个 路 口 以 相等 的 概率 出 现 红 灯 或 绿灯 ， 而 且 各 
个 路 口 的 红绿灯 的 出 现 是 相互 独立 的 . 


的 分 布 列 、 均值 和 方差 . 


待 2 分 钟 , 计算 爱丽 丝 在 上 班 路 上 花费 时 间 的 方差 . 


39. 每 天 早上 , 饥饿 的 哈里 总 要 吃 几 个 鸡 


掉 的 鸡蛋 个 数 是 1 到 6 个 不 


Se 
等 ,而 


所 吃 掉 的 鸡蛋 数 . 求 X 的 均值 和 方差 . 


40. 一 个 教授 因为 他 的 任意 评分 办 法 1 
B,B 一 ,C+} 上 等 概率 地 分 布 , 而 对 各 篇 论文 的 训 


J 知名 , 对 于 每 篇 论文 , 他 的 总 


级 至 少 对 应 一 篇 论文 , 你 大 概 需 要 交 多 少 篇 论文 ? 


41. 你 开车 上 班 , 一 年 工作 50 周 ， 


(a) 你 得 到 的 罚单 数 刚好 等 
(b) 条 


4 


每 周 工作 5 天 . 每 天 你 得 到 交通 罚 
且 各 天 之 间 是 否 得 到 罚单 是 相互 独立 的 . 记 X 为 你 一 


于 E[X] 的 概率 有 多 大 ? 
泊 松 分 布 近似 地 计算 (a) 中 的 概率 . 


蛋 . 假定 哈里 每 天 吃 鸡 蛋 的 个 数 是 一 个 随机 变量 , 吃 
在 {1,2,3,4,5,6} 上 均匀 分 布 . 令 X 为 哈里 10 天 


分 是 在 集合 {4, A 一, B+， 
分 是 相互 独立 的 . 为 了 使 得 每 种 评分 等 


的 概率 为 p = 0.02, 而 
年 中 得 到 的 罚单 数 . 


(c) 假定 每 张 罚单 的 罚款 额 分 为 10 元 、20 元 和 50 元 , 相应 的 概率 分 别 为 0.5, 0.3, 0.2， 


和 方差 . 


(d) 假定 你 不 知道 p 的 值 , 但 是 在 一 和 


什么 ? 


42. 计算 问题 .此 处 讨论 的 问题 是 计算 单位 正方 形 中 的 子 集 5 的 面积 的 方 没 


正方 形 上 服从 均匀 分 布 的 一 


随机 


Dn 


的 点 列 ， 如 曙 


并 且 各 张 神 单 的 罚款 额 之 间 是 相互 独立 的 求 出 一 年 中 你 的 交通 罚款 总 额 的 均值 


in 


中 你 得 到 5 张 罚 单 . 你 用 


5 
0 
2 一 下 0 一 00 


Xi 十 … 十 Xn 
ee 


估计 p 的 值 . 假定 方 与 六 的 差 是 在 样本 平均 的 5 倍 标准 差 之 内 , 2 的 变化 范围 是 


.我 们 利用 单位 


第 i 个 点 是 在 集合 5 中 , 令 X = 1, 在 


则 为 0. 现在 设 X1,… , Xn 是 这 样 生 成 的 随机 变量 序列 , 记 
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关 


(a) 证 明 E[Sn] 等 于 子 集 5 的 面积 , 而 var(S,) 当 n 无 限 增加 时 趋 于 0. 
(b) 证 明 为 了 计算 5,, 的 值 , 我 们 可 以 利用 5S%_: 和 X;, 的 值 , 而 并 不 依赖 于 以 前 的 


X1,… ,Xn-_1. 写 出 一 个 公式 . 

(c) 利用 计算 机 的 随机 数 发 生 器 写 一 个 计算 机 程序 , 产生 数列 Sm = 1,2,… ,10 000. 

其 中 8 是 单位 正方 形 的 内 切 圆 . 怎样 利用 你 的 程序 去 近似 x 的 值 ? 

类 似 的 计算 机 程序 去 近似 地 计算 单位 正方 形 内 由 条 件 0 < cosrz 十 sinry 1 
所 确定 的 点 集 的 面积 

设 和 和 YY 是 两 个 相互 独 并 且 具 有 相同 分 布 的 几何 随机 变量 , 其 参数 为 p. 证 明 

1 


一 
已 

Sit 
+ 
2 


P(X=iX+Y=n)-= 


解 ” 可 以 将 参数 为 p 的 几何 随机 变量 理解 为 连续 抛掷 一 枚 硬币 直到 正面 出 现 所 需 抛 掷 
的 次 数 , 而 每 次 抛掷 时 正面 出 现 的 概率 为 p. 这 样 P(X = 让 X 二 站 = m) 可 以 解释 为 : 在 
抛掷 硬币 的 序列 中 , 第 2 次 出 现 正面 所 需 抛掷 次 数 为 n 的 条 件 下 , 第 工 次 出 现 正 面 的 时 
刻 为 第 i 次 锰 拉 的 概率 . 可 以 直观 地 解释 为 : 已 知 第 ”次 抛掷 时 , 出 现 第 2 次 正面 , 由 了 
对 称 性 , 第 1 次 正面 出 现 的 抛掷 时 刻 是 等 概率 地 分 布 在 第 1 次 到 第 n 一 1 次 抛 括 上 . 现 
在 形式 地 证 明 这 个 事实 . 首先 , 我 们 有 

P(X=iX+Y=n) P(X=iP(Y=n-2) 


P(X =ilX+Y =n)= 


P(X+Y=n) P(X+Y=n) 
同时 
P(X=i)=p(1-p) !, i>1, 
P(Y=n-i)=p(1-p)" !, n-izl, 


此 可 知 , 对 于 [1,n 一 1] 中 的 任何 i 和 j, 均 有 
P(X=iX+Y=n)=P(X=jIX+Y =n). 


从 而 


P(X =ilX 1+ 
设 X 和 YY 是 两 个 随机 变量 , 其 联合 分 布 列 已 知 . 又 设 g 和 分别 为 和 和 YY 的 函数 . 
证 明 若 X 和 YY 相互 独立 , 则 9g(X) 和 h(Y) 也 相互 独立 . 
解 ” 令 U=g(X),V 二 h(Y). 我 们 有 


lL 


puv (u,v) = >， Px,Y (L,Yy) 
{(z,y)lg(7z)=u,h(y)=v} 


= SR Px (7X)pY (Y) 
{(z,y)lg(72)=u,h(y)=v} 


= > pxlz) > py(y) 


{zlg(z)=u} {vy|lh(y)=v} 
=pvu (u)pv (v), 


这 说 明 UV 和 Y 相互 独立 . 
45.” 方差 的 极 值 ， 设 Xi1,… , Xh 为 独立 同 分 布 的 随机 变量 序列 , X = Xi 十 … 十 Xn. 
(a) 假定 X; 为 伯 努 利 随机 变量 参数 为 pi, 而 参数 序列 pi,… ,pn 满足 条 件 EIX] = 
/> 0. 证 明 X 的 方差 当 pi 全 等 于 jy/n 的 时 候 达到 最 大 . 
(b) 假定 X; 为 几何 随机 变量 , 参数 为 Pi, 而 参数 序列 pi,… ,pn 满足 条 件 E[X] = 
内 > 0. 证 明 X 的 方差 当 pi 全 等 于 n/n 的 时 候 达 到 最 小 . | 注意 , (a) 和 (b) 两 
部 分 具有 完全 不 同 的 特征 . ] 


解 
(a) 我 们 有 
var(X) = > var(Xi) -Dr (1 — pi) = pi. 
i=1 i=1 
最 大 化 方差 的 问题 归结 为 最 小 化 于 六 ;2? 的 问题 . 由 下 面 的 恒等式 (注意 到 > 
$l 
pi=h) 从 
3 y (pi— p/m) + (n/n), 
1 一 工 4 
可 知 并? 22 在 pi 本 1,… ,n) 的 时 候 达 到 最 小 . 
(b) 我 们 有 


和 


var(X) = > war (Xj= ~ = 
作 变 换 y; = 1/pi; = E[Xi]. 这 样 约束 条 件 变 成 
> sl 
在 此 约束 条 件 下 X 的 方差 达到 最 小 值 的 问题 变 成 最 小 化 
Du -1)= Dn —k 


的 问题 . 这 与 (a) 中 讨论 的 问题 是 一 样 的 ， 当 取 yi = pj/n(i = 1,… ,n) 时 使 得 

var(X) 达到 最 小 值 , 即 p; = n/p(i = 1,… ,n) 时 使 得 var(X) 达到 最 小 

46.” 炳 和 不 确定 性 ， 设 X 是 一 个 随机 变量 , 它 的 取 值 范围 为 {x1,… ,zn}, 相应 的 取 值 概率 
分 别 为 {pi1,… ,pn}. X 的 业 定 义 为 


一 > pilogpi. 
二 小 
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站 
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(这 个 问题 中 的 所 有 对 数 都 是 


定性 


> 


五 


设 有 一 


(比如 “XX 是 否 等 于 z1?“ 或 ”X 是 否 小 于 x 


个 随机 变量 关 , X 取 有 限 个 值 . 为 确定 X 的 值 , 通常 用 “是 非 题 ” 的 方法 逐步 确定 
5?”), 为 确定 X 的 值 所 需要 问 的 问题 数 的 平 
均 数 的 下 界 为 五 (XX). 进一步 , 设 为 了 确定 一 组 独立 同 分 布 的 随机 变量 Xi1, X2,… ,Xn 


的 值 所 需要 回答 问题 的 平均 数 为 , 则 当 n 充分 大 的 时 候 , 可 以 使 kJn 与 五 (X) 任意 


(a) 


(b) 


(d) 


HH(X) 的 


农 提出 , 在 许多 专业 的 教材 中 均 有 陈述 . 例如 ， 


以 2 为 底 的 对 数 .) 烂 五 (X) 是 关于 随机 变量 X 取 值 不 确 
的 度量 . 为 了 给 出 一 个 直观 的 印象 , 注意 到 H(X) > 0， 当 X 的 取 值 趋 于 确定 
直 的 时 候 ( 即 X 取 某 个 值 的 概率 趋 于 1)， 
村 , plogzp ~ 0). 

炉 是 信息 论 的 基本 概念 , 它 最 早 由 刀 


值 趋 于 0( 这 是 由 于 当 p 守 0 或 pX1 


攻 


证 明 如 果 gq,… ,gn 是 满足 并 29 = 工 的 一 组 非 负数 , 则 


一 > pilog qi 
4 


其 中 等 号 成 立 的 充 要 条 件 是 q; = pi 对 一 切 i 成 立 . 作为 特殊 情况 , 证 明 H(X) < 


logm, 且 等 号 成 立 的 充 要 条 件 是 pi; = 1/n 对 一 切 i 成 并 . 提示 : 利用 不 等 式 In a < 
a 一 1 对 一 切 a > 0 成 立 , 并 且 只 有 当 a = 1 的 时 候 等 号 成 立 . 这 里 In a 是 自然 对 


设 X 和 了 是 取 有 限 个 值 的 随机 变量 


,其 联合 


分 布 列 为 px,y (zx,y). 定义 


==> > pxyr(zy)log 2 
于 y 


px (x)py (Yy) 


证 明 I(X,Y) > 0, 并 且 I(X,Y) = 0 成 立 的 充 要 条 件 是 X 和 Y 相互 独立 . 
(c) 证 


X)+H(Y)— H(X,Y), 


二 2 log px,y (X,Y), 


证 明 
I(X,Y)= HI( 

[ssl 
Se ) logpx(z 

证 明 
I(X,Y) = 

其 中 

H(XIY) = -Pr 


[ 注意 : 可 以 认为 五 (XIY) 是 了 给 定 


H(X)— 


) 》 px 


定 的 条 件 


py(y)logpy(y 


H(XIY), 


Y (x|y) logpxlY (2|y). 


下 XX 的 条 件 业 , 即 给 定 Y = y 之 


下 首先 对 X 的 条 件 分 布 求 炉 , 然后 对 所 有 可 能 的 y 值 求 平均 ， 这样 T(X,Y) = 
五 (X) 一 互 (XIY) 是 知道 Y 的 值 的 条 件 下 炉 


(不 确定 性 ) 的 压缩 量 . T(X,Y) 也 可 


解释 为 X 中 包含 的 了 的 那 一 部 分 的 信息 量 . 


号 


i 


因此 也 成 为 X 和 YY 相互 包含 的 信息 


解 
(a) 


(b 


— 


(c) 


(d) 


我 们 利用 不 等 式 ha < a 一 1( 可 以 这 样 证 明 :对 于 a > 1, na = a B71d8 < 
1 
a 1 下 
/ dB=a-b 对 0<a<hina=-/ Br-1d6 < /ae=a 1), 得 到 
1 


a 


a Dm (s :) < 2 人 -= 
i=l1 = 


其 中 等 号 成 立 的 充 要 条 件 是 w = pi; 对 一 切 i 成立， 由 于 Inp = logpln2, 上 面 
的 不 等 式 与 五 (X) < 一 ”1 pilog gi 是 等 价 的 ， 若 令 gq; = 1/n(i = 1,:… ,n)，, 
H(X) < — i pilogg; 变 成 H(X) < logn. 

px(z)py (y) 满足 条 件 ,px(z)py(y) = 1. 利用 (a) 的 结论 , 得 到 
2 x,y) log (px,y (2,Y)) > 7,Y) log (px (2)pY (Y)), 


其 中 等 :号 成 立 的 充 要 条 件 是 

px,Y (X,Yy) = px(X)py(y) 对 一 切 z 和 gy 成 立 ， 
或 等 价 地 X 和 Y 相互 独立 . 
利用 了 和 万 之 定义 , 可 得 


i 1,Yy) log px,y (x,Y) 3 7,Y) log (px (2)py (Y)), 
2 (z,Y) logpx,y (x,Y) = —H(X,Y), 
TEDiostest® 7 ee 
-Tm (2,Y) logpy (Y) 
-ot )log px (zx )- 2 rr) ) log py (y) 


=H(X) + H(Y). 


这 三 个 公式 , 可 以 得 到 IT(X,Y) = H(X)+ H(Y)— H(X,Y). 
(c) 的 计算 , 可 得 到 


i (2,Y) log px,Yy (2,Y) ~ 2 Px) ) log px (2) 
一 D2 (2,y) log py (y) 


-HX)+ DY pxrle Wlog rE 


=H(X)1+ Em y)pxlY (XIy) log pxlY (xy) 


=H(X) 一 H(XIY). 
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取 值 于 连续 区 域 的 随机 变量 是 十 分 普遍 的 . 在 高 速 公 路 上 汽车 的 速度 就 是 
个 例子 . 若 汽车 的 速度 可 从 速度 表 读 得 , 那么 我 们 可 将 速度 表 的 读数 看 成 离散 的 
机 变量 . 但 是 , 为 了 将 汽车 的 真实 速度 模型 化 , 连续 随机 变量 更 为 合适 . 多 种 理 
说 明 连 续 随机 变量 是 概率 论 中 非常 有 用 的 概念 . 除了 刻画 细致 和 精确 外 , 连续 随机 
变量 模型 可 以 利用 有 力 的 分 析 工 其 解决 概率 的 计算 问题 . 更 主要 的 是 , 连续 随机 变 
量 还 可 以 刻画 某 些 随机 现象 的 本 质 , 而 单纯 靠 离散 随机 变量 , 这 是 无 法 做 到 的 . 
所 有 在 第 2 章 中 讨论 的 概念 , 例如 期 望 、 分 布 列 和 条 件 等 都 有 对 应 的 概念 . 本 
章 的 任务 就 是 将 第 2 章 中 的 概念 在 连续 随机 变量 的 情况 下 重新 解释 . 


| 


ES 


3.1 ”连续 随机 变量 和 概率 密度 函数 


对 于 随机 变量 X, 若 存 在 一 个 非 负 函数 fx, 使 得 


对 每 一 个 实数 轴 上 的 集合 B 都 成 立 ”, 则 称 X 为 连续 的 随机 变量 , 函数 fx 就 称 
为 X 的 概率 密度 函数 , 或 简称 PDF. PDF 的 概念 与 离散 随机 变量 的 分 布 列 是 相对 
应 的 . 特别 地 , 当 B 是 一 个 区 间 的 时 候 


Pla< X<0b)= 下 jx(zZ)dz 


此 时 , 这 个 积分 可 以 理解 为 PDF 和 区 间 le, 如 所 形成 的 曲 边 梯形 的 面积 ( 见 图 3.1). 
对 于 音信 合 w 我 们 有 P(X = = 了 (zaz = 0 由 于 这 个 原因 , 区间 的 
对 于 概率 的 计算 不 起 作用 , 即 


Pla< X<0b)=P(a<X<0)=Pla<X<b)=P(a<X<Db). 


@ 积分 / jx(z)dz 可 以 理解 为 黎 曼 积分 , 我 们 假定 所 涉及 的 函数 是 黎 曼 可 积 的 ， 对 于 不 寻常 的 函 
数 或 集合 , 这 个 积分 可 能 是 无 法 定义 的 , 这 是 更 近代 的 数学 分 析 所 处 理 的 问题 . 我 们 通常 遇 到 的 函 
数 是 具有 有 限 个 (或 可 数 个 ) 间断 点 的 逐 段 连续 函数 fx, 通常 的 积分 限 为 有 限 个 (或 可 数 个 ) 区 
间 的 和 . 这 些 情况 属于 黎 曼 积分 处 理 的 范围 
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一 个 函数 能 够 成 为 PDF, 它 必须 是 非 负 的 , 即 产 (z) >0 对 一 切 z 成 立 , 同时 


它 还 必须 满足 下 面 的 归 一 性 条 件 


广 jx(z)dz =P(-o0 <X< co) =1. 


王 


事件 {a 大 < 0} 


图 像 上 看 , PDF 下 面 的 且 在 > 轴 上 面部 分 的 面积 必须 等 于 


请 


化 


b 
3.1 PDF 的 解释 . X 取 值 于 [a, 吕 的 概率 是 fx(z)dz, 这 个 积分 就 是 图 中 阴影 部 分 的 


面积 


也 可 以 对 PDF 作 这 样 的 解释 : 对 于 很 小 的 5, 我 们 有 


Z 十 0 
ri 3 Ps 


这 样 , 我 们 可 以 理解 fx(zx) 为 XX 落 入 xz 附近 的 单位 长 度 的 概率 ( 见 图 3.2)， 由 于 


jx(z) 是 概率 律 , 不 是 某 一 事件 的 概率 , 故 fx(x) 可 以 大 于 1. 


PDF fx(2) 


6 


T 7 十 


3.2 PDFfx(x) 作为 x 附近 的 概率 律 的 解释 . 设 6 很 小 , 在 图 中 X 取 值 于 [zx,x 二 6] 的 


概率 是 图 中 阴影 部 分 的 面积 , 它 近 似 地 等 于 fx (x) .6 


例 3.1 (连续 的 均匀 随机 变量 ) ”一 个 赌 客 在 赌场 转动 幸运 


云 轮 , 了 


幸运 轮 上 具有 连续 


的 刻度 , 从 0 到 1. 每 次 轮子 转动 停止 以 后 , 固定 的 指针 会 指向 轮子 上 的 一 个 数 . 假 


定 转动 停止 以 后 , 指针 指向 幸运 轮 上 任意 两 个 长 度 相 同 的 区 


样 的 随机 试验 可 用 一 个 随机 变量 XX 来 刻画 , X 的 PDF 可 


c， 帮 0<z<1, 
fx(7x) = . 其 他 ， 


x 间 的 概率 是 相等 的 . 这 


由 下 式 给 出 
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此 处 常数 c 可 


用 下 面 的 归 一 化 条 件 
Co 1 全 
= Podz= | cir=e | dw =:¢ 
一 co 0 0 
确定 , 即 c=1. 


更 一 般 地 , 可 以 考虑 取 值 于 区 间 [a,8] 上 的 随机 变量 . 
的 任意 两 个 长 度 相 同 的 子 区 间 的 概率 是 相同 的 . 这 种 随机 变量 和 


我 们 假定 X 取 值 


于 [a,0] 


称 为 具有 均匀 分 布 


的 随机 变量 这 种 随机 变量 的 PDF | 


PDF fx(2) 


( 见 


pb 六 


的 PDF 


3.3 均匀 随机 变量 
例 3.2 ( 逐 段 常数 的 PDF) 


均匀 地 分 布 着 的 . 假定 
驶 时 间 X 看 成 随机 变量 ， 
我 们 把 “区 驶 时 间 在 各 自 


崩 天 的 可 能 性 


下 式 给 出 : 


可 从 下 面 


阿尔 文 开 
15~20 分 钟 , 雨天 需要 20~25 分 钟 . 在 每 种 性 
为 2/3, 雨天 的 可 能 性 
那么 X 的 PDF 是 什么 ? 
的 范围 内 均匀 


图 3.3). fx(z) 在 可 上 的 常数 (1/(b 一 a)) 
的 归 一 化 条 件 得 到 : 


1= /fxr= f 


车 上 班 . 在 天 气 晴朗 的 日 子 , 大 约 需 要 驾驶 
4 况 下 , 鸭 驶 时 间 都 是 在 各 自 的 范围 内 
生 为 1/3. 若 把 阿尔 文 的 芍 


dz. 
a 


地 分 布 理解 为 X 的 PDF 在 各 自 的 


区 间 [15,20] 和 [20,25] 上 分 另 
X 的 概率 密度 函数 在 


| 为 常数 . 
他 范围 内 应 i 


C1， 


0， 


此 处 cl 和 ca 是 常数 . 而 这 些 常 数 可 从 雨天 和 晴天 的 概率 


C2， 


于 这 两 个 区 间 包 含 所 有 可 能 的 驾驶 时 间 ， 


玄 是 0. 这 样 


若 15 和 z < 20， 
若 20 < zx < 25, 
其 他 ， 


20 
2 _p( 晴 天 二/ fx(z)qz = . ey 
3 15 15 
1 Sa 2 25 
二 二 P( 坪 大 ) = .| jx(z)dz = / c2dz = 5c2, 
3 20 20 
由 此 得 到 
a 
7 15 2 15 
将 这 个 例子 进行 推广 , 考虑 X 的 下 列 形式 的 PDF 


3.1 续 随 机 变量 和 概率 密度 


函数 ”125 


(x) Ci 若 wu <2 < oil i=1,2,...,n—1, 
区 一 
0， 其 他 ， 


的 归 一 化 条 件 : 
Qn 也 一 工 Qi 十 1 也 一 工 


PDF 户 (9 
术 


图 3.4 含有 三 个 区 间 的 逐 段 常数 PDF 


例 3.3 (可 以 取 任 意 大 的 值 的 PDF) 考虑 X 的 下 列 PDF 


1 Ss 
i 右 0<Zz < 1, 
fx(z) = 9 2VT 
0， 其 他 . 


密度 函数 . 这 是 因为 
co 1 1 1 
/Pdz= 二 全 


尽管 在 > 趋 于 0 的 时 候 fx(z) 的 值 可 以 任意 地 大 , fx(z) 仍然 是 一 个 


其 中 al < aa < … < an 是 常数 ,ci1,c2,… ,cn 是 一 组 非 负数 ( 见 图 3.4)， 常数 
cc ;ycn 可 以 像 前 面 那样 , 由 一 组 条 件 确定 . 一 般 说 来 , 常数 c; 必须 满足 下 面 


合法 的 概率 


关于 PDF 性 质 的 小 结 
设 X 的 PDF( 概 率 密 度 函 数 ) 为 fx(zx). 
e。 jx(zZ)>0 对 一 切 2 成立. 


/ fx(z)dr =1. 


e。 设 6 是 一 个 充分 小 的 正 数 , 则 P([z,z 十 90]) 产 (z) :5 
。 对 任何 实数 轴 上 的 子 集 B， 


P(X€B)= | fx (oar 
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3.1.1 期望 
连续 随机 变量 X 的 期 望 或 均值 是 由 下 式 定 义 的 : ” 
E[X|] = 下 ZJx(z)dz. 


连续 随机 变量 的 期 望 的 定义 与 离散 随机 变量 的 情况 完全 相似 , 只 须 将 定义 中 的 分 布 
列 置换 成 概率 密度 函数 (PDF), 求 和 置换 成 积分 . 正如 在 第 2 章 中 那样 , EIX] 可 以 
解释 成 PDF 的 重心 和 大 量 独立 重复 试验 中 X 的 取 值 的 平均 数 . 毕竟 , 积分 是 求 和 
的 极限 形式 , 连续 情况 的 期 望 的 数学 性 质 与 离散 情况 是 极其 相似 的 . 

设 X 是 一 个 连续 随机 变量 , 其 PDF 为 fx(x), 则 X 的 任意 函数 Y= 9(X) 也 
是 一 个 随机 变量 . 注意 , Y 可 以 是 连续 随机 变量 , 例如 , 取 了 = 9(X) = X, 此 时 YY 
的 PDF 与 X 的 PDF 相同 . 但 是 Y 也 可 能 是 离散 随机 变量 , 例如 当 x > 0 时 , 令 
g(z) = 1, 否则 令 g(x) = 0. 此 时 , 了 只 取 0 和 1, Y 是 一 个 离散 的 随机 变量 . 但 是 
无 论 是 离散 的 或 连续 的 结果 , 下 述 的 期 望 规 则 总 是 成 立 的 : 


Elo) = 大 Gds 


( 见 本 章 末尾 的 习题. ) 

随机 变量 X 的 n 阶 适 定 义 为 ELXj， 随 机 变量 X 的 方差 定义 为 随机 变量 
(X 一 [XJ)? 的 期 望 , 记 为 var(X). 

现在 我 们 将 连续 随机 变量 的 性 质 列 成 下 表 , 这 些 性 质 与 离散 随机 变量 的 性 质 是 
完全 相同 的 


由 


串 


连续 随机 变量 的 期 望 的 性 质 
记 X 为 连续 随机 变量 , 其 相应 的 PDF( 概 率 密度 函数 ) 为 fx (z). 
。XX 的 期 望 由 下 式 定义 : 


E[X| = rfx(r)dz. 


@ 在 此 , 我 们 必须 关心 的 一 种 可 能 性 是 : 积分 后 zfx(z)dzx 可 能 取 无 限 值 或 不 存在 . 具体 地 说 ， 


我 们 称 期 望 是 有 定义 的 , 是 指 /|z|fx (z)dw < co, 此 时 积分 是 有 确切 定义 的 , 状 且 积分 信 小 
于 无 穷 . 

作为 期 望 没有 确切 定义 的 例子 , 考虑 X 的 PDF fx(z) = c/(1 十), 此 处 c 是 一 个 归 一 
化 常数 ， 函 数 jz| fx (zx) 在 jz| 充分 大 的 时 候 可 用 cy/lz| 逼近 . 于 人 (Lajdz 二 oo, 可知 


delyx(e))de = co. 这 样 , EX] 是 没有 定义 的 , 尽管 X 的 PDF 相对 于 0 是 对 称 的 
本 书 中 , 如 无 特别 申明 , 总 是 假定 连续 随机 变量 X 的 期 望 是 有 定义 的 . 
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。 关 于 随机 变量 g(X) 的 期 望 规 则 为 


Bg) = 人 ola) fx (oa. 


e。X 的 方差 由 下 式 给 出 : 
waC0= BIX -BDI= (eB) fx (ede. 


。 关 于 方差 , 下 列 公式 成 立 : 


0 < var(X) = E[X?] ~ (E[X])*. 


e。 设 Y 二 a 儿 十 b, 其 中 a 和 4b 为 常数 , 则 


ElY] = aE[X] TD var(Y) = a2var(X). 


例 3.4 (均匀 随机 变量 的 均值 和 方差 )” 设 随机 变量 X 的 分 布 为 [a,9| 上 的 均匀 分 
布 , 见 例 3.1. 我 们 有 


E[X| = ZJx(zZ)dz 


1 
= | sj 
1 1 ,0 
ba 2 la 
1 b 
ba 2 
a+b 
pt 


这 个 期 望 值 刚好 等 于 PDF 的 对 称 中 心 对 
为 求 得 方差, 先 计算 X 的 二 阶 逢 
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03 a3 
3b—a) 
+ab+t+b 
Se 
这 样 , X 的 方差 为 


var(X) 到 E[X2?] (E[X])? Se a tt 一 (b § 


3.1.2 ”指数 随机 变量 
车 随机 变量 X 的 PDF 具有 下 列 形式 : 
MMe， 若 z>>0， 
fx(7z) = . 比 他 ， 
则 称 X 是 指数 随机 变量 , 其 中 和 是 分 布 的 参数 , 入 > 0( 见 图 3.5). 这 个 函数 是 合法 
的 概率 密度 函数 , 其 原因 是 
全 Jx(z)dz = 人 Ne dr =—e ”|e =1. 


注意 , 指数 分 布 具 有 这 样 的 特性 : X 超过 某 个 值 的 概率 , 随 着 这 个 值 的 增加 而 按 指 
数 递减 , 即 对 于 任意 a > 0， 


P(X > oa) = / Me dz = 一 ez 一 e *. 


3.5 “指数 随机 变量 的 PDF Xe 六 


指数 随机 变量 具有 广泛 的 用 处 , 它 可 以 表示 到 发 生 某 个 事件 为 止 所 用 的 时 间 ， 
例如 , 这 个 事件 可 以 是 某 条 信息 到 达 计 算 机 、 一 台 仪 器 的 使 用 寿命 终止 、 一 个 灯泡 
用 坏 了 或 一 辆 汽车 出 一 次 车 祸 , 等 等 . 我 们 将 会 看 出 , 指数 随机 变量 与 离散 的 几何 
随机 变量 十 分 相似 . 几何 随机 变量 也 与 某 一 个 我 们 感 兴趣 的 事件 发 生 的 (离散 ) 时 
间 相 关联 .在 第 6 章 讨论 随机 过 程 时, 指数 分 布 是 十 分 重要 的 工具 . 但 目前 , 我 们 
将 指数 分 布 作为 一 种 常见 的 分 布 处 理 . 

指数 随机 变量 的 均值 和 方差 由 下 列 公 式 给 出 : 
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E[X] = 
这 些 公 式 可 以 直接 计算 得 到 . 利用 分 部 积分 法 ， 


再 次 利用 分 部 积分 法 , 可 得 到 X 的 二 阶 矩 
zc- / 2Z2 和 Xe dz 
0 


Oo Ce 
十 2ze-^zdz 
0 0 


最 后 , 利用 公式 var(X) = E[X?] 一 (E[X])?, 得 到 
2 1 1 
X22 X22 XX 
例 3.5 ”小 陨石 落 入 非洲 撒哈拉 沙漠 的 时 间 是 遵从 指数 分 布 的 .具体 地 说 , 从 某 
一 观察 者 开始 观察 , 直到 发 现 一 颗 陨 石 落 到 沙漠 , 这 个 时 间 的 分 布 是 指数 分 布 , 这 
个 时 间 的 平均 长 度 是 10 天 . 现在 假定 , 目前 时 间 为 晚上 12 点 整 . 问 在 第 二 天 早晨 
6:00 到 傍晚 6:00 之 间 陨 石 首 次 落下 的 概率 有 多 大 ? 

假定 X 是 为 了 观察 陨石 落下 所 需要 的 等 待 时 间 . 由 于 X 的 分 布 为 指数 分 布 ， 
均值 1/ 和 = 10, 由 此 知 入 = 1/10. 所 求 的 概率 为 


var(X)= 


P(1/4< X<3/4)=P(X>1/4) -P(X >3/4)=e we- 节 =0.047 6， 


此 处 我 们 利用 了 公式 P(X 之 a) =P(X >a)=e*. 
3.2 分 布 函 数 


我 们 分 别 用 分 布 列 (离散 情况 ) 和 概率 密度 函数 (连续 情况 ) 来 刻画 随机 变量 
X 的 取 值 规律 . 现在 我 们 希望 用 一 个 统一 的 数学 工具 来 刻画 随机 变量 的 取 值 规律 . 
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分 布 函 数 2 CDF 表示 简称 ) 就 能 完 ee 随机 变量 X 的 CDF 是 x 的 
函数 Fx, 对 每 一 个 xz, Fx (zx) 定义 为 P(X < z). 特别 地 , 当 X 为 离散 或 连续 


况 下 ， 
> px(k)， 车 X 是 离散 的 ， 


天 去 沙 
Fx(7)= P(X < 7)= 


/ fx(Ddt， 若 久 是 连续 的 . 


分 布 函 数 又 称 累 积分 布 函 数 , 累积 意味 着 Fx(z) 将 X 取 值 的 概率 由 -oo 


Tz. 


hl 


卖 的 情 


累计 到 


在 一 个 概率 模型 中 , 随机 变量 可 以 有 不 同 的 类 型 , 可 以 是 离散 的 , 也 可 以 是 连 


续 的 , 甚至 可 以 是 既 非 离散 也 非 连续 的 . 但 不 管 是 什么 类 型 的 随机 变量 ， 
个 共同 的 特征 , 即 都 有 一 个 分 布 函数 , 这 是 因为 {X < z} 是 一 个 随机 事件 ， 


件 的 概率 形成 概率 分 布 . 今后 , 凡是 刻画 事件 {X < z} 的 概率 的 , 都 称 为 随机 变量 


X 的 概率 律 . 因此 离散 情况 下 的 分 布 列 , 连续 情况 下 的 概率 密度 函数 以 及 一 
下 的 分 布 函 数 都 是 相应 的 随机 变量 的 概率 律 . 


它们 有 一 


这 些 事 


般 情 况 


图 3.6 和 图 3.7 分 别 给 出 离散 随机 变量 的 CDF 和 连续 随机 变量 的 CDF 一 些 


说 明 . 从 这 些 图 像 以 及 CDF 的 定义 , 可 以 得 到 CDF 的 某 些 一 般 的 性 质 . 


PMEF px(2) 


0 a 0 bE 


图 3.6 某 些 离散 随机 变量 的 CDF. 通过 随机 变量 的 分 布 列 , 可 求 得 相应 的 分 布 函数 : 


Fx(z)= P(X < 7x) = > px(k) 


天 入 并 


这 个 函数 是 一 个 阶梯 函数 , 在 具有 正 概率 的 那些 点 上 有 具有 跳跃 .在 跳跃 点 上 ，Fx(z) 


取 较 大 的 那个 值 , 即 Fx (zx) 保持 右 连续 


图 3.7 某 些 连 续 随机 变量 的 CDF. 通过 随机 变量 的 概率 密度 

Fx(7)= P(X < 7x) fx(lt 

CDF 经 微 商 得 到 
fx(s) = SS 


,CDF 是 连续 的 


概率 密度 函数 fx (zx) 可 


对 于 连续 随机 变 直 


度 函 数 ， es 数 : 


CDF 的 性 质 
随机 变量 X 的 CDF Fx 上 出 


全 


对 和 


Ff 且 Fx 具有 下 列 性 质 . 
单调 非 减 函数 : 


车 vz<<y， 


下 式 定义 ， 


个 z, Fx(z) 


= P(X < Zz), 


。Jx 是 


则 Fx(z) < Fx( 


XX 是 离散 随机 变量 的 时 
XX 是 连续 随机 变量 的 时 
X 是 离散 随机 变量 六 
或 差分 互 求 : 


候 , Fx(z) 为 xz 的 阶梯 
候 , Fx(z) 为 x 的 连续 
# 且 取 整数 值 时 ,分布 


k 


>》， px(i), 


1 一 一 co 


—_P(X<k-1)= 


败 上 败 账 发 


Fx(k) = 
px(k) 


二 中 天 可 以 是 任意 整数 . 


=P(X<E%) Fx(k 


y)- 
zz 一 一 co 的 时 候 , Fx (xz) 趋 于 0, 当 z 一 oo 的 时 候 , Fx(z) 趋 


函数 和 分 布 


Dn 


函数 . 
函数 . 


列 可 以 利用 求 和 


)— Fx(k— 1), 
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。 当 X 是 连续 随机 变量 的 时 候 , 分 布 函 数 和 概率 密度 函数 可 以 利用 积分 或 
微分 互 求 : 


(第 二 个 等 


n= fx(t)dt, fx( 人 四 = EE (0) 


式 只 在 分 布 函数 可 微 的 那些 点 上 成 立 . ) 


有 时 候 , 为 J 


布 函数 会 更 方便 些 . 在 连续 随机 变量 的 情况 下 , 我 们 将 在 4.1 节 中 系统 地 介 


计算 随机 变量 的 分 布 列 或 概率 密度 函数 ， 人 
绍 如 何 


用 该 方法 求 随机 变量 的 函数 . 下 面 是 一 个 离散 随机 变量 的 计算 例子 . 


例 3.6 ( 几 个 随机 变 


上 中 XI1、X2、X3 
立 的 , 每 次 测试 成 


在 求 最 终 成 绩 X 的 分 布 列 Px. 


量 的 最 大 值 ) ”你 参加 某 种 测试 , 按 规定 三 次 测试 的 最 高 
作为 你 的 最 终 成 绩 . 设 


及 一 Imax{X1,X2， X3}, 


绩 是 1 分 到 10 分 之 间 , 并 且 P(X = = 1/10,i = 1,…: 


我 们 采用 间接 方法 求 分 布 列 . 首先 计算 X 的 CDF, 然后 通过 


得 到 X 的 分 布 列 . 


px(k)= Fx(k) — Fx(k— 1), 1 一 1 … ,10 
对 于 Fx(k), 我 们 有 


Fx( 风 P(X < 且 
= P(Xi < k, X2 < k, X3 < k) 
和 (六 必 科 BEE 关 罗 


-的 


成 绩 


De X 是 你 的 最 终 成 绩 . 假定 各 次 测试 是 相互 独 
,10. 现 


此 处 第 三 个 等 式 是 由 事件 {Xi < kK}、{X2 < 有}、{X3 < 有} 相互 独立 所 致 . 这 样 X 


的 分 布 列 为 


EN /kl1Y’ 
px()=( 吉 ) - (所 !) ;， 上 二 1,.… ,10. 


本 例 的 方法 可 推广 到 ”个 随机 变量 Xi1,… ,X 的 情况 . 如 果 对 每 一 个 x, 事 


件 {X1 入 zj 


利 月 
到 7x(c ). 


人 


, {Xn 二 x} 相互 独立 , 则 X = max{X1,… ,Xn} 的 CDF 为 


F(z) = Fx, (72): Fx, (7). 


这 个 公式 , 在 离散 情况 下 通过 差分 可 得 到 px(z), 在 连续 情况 下 通过 微分 可 得 
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几何 和 指数 随机 变量 的 分 布 函数 
由 于 分 布 函 数 对 一 切 随机 变量 都 适用 , 我 们 可 以 利用 它 来 探讨 离散 和 连续 随机 


变量 之 间 的 关系 . 特别 地 , 此 处 讨论 几何 随机 变量 和 指数 随机 变量 之 间 的 关系 . 

设 X 是 一 个 几何 随机 变量 , 其 参数 为 p, 即 X 是 在 伯 努 利 独立 试验 序列 中 直 
到 第 一 次 成 功 所 需要 的 试验 次 数 , 而 伯 努 利 试验 的 参数 为 p. 这 样 对 于 天 = 1,2,…， 
我 位 有 P(X = 有 =p(1 一 p)*-!, 而 XX 的 CDF 为 


1 
Fegeo(n) = >,p(1 —p)* 1=p- 
= 


现在 设 X 是 一 个 指数 随机 变量 , 其 参数 入 > 0. 其 CDF 是 


Fexp(7) 


sj/ Me tdt = 


现在 比较 两 个 分 布 函 数 , 令 6 = 一 ln(1 一 p)/, 这 样 


=P(X<Zx)=0, 


e | 
Fexp( Ek 


= 一 2. 
) 分 布 函数 Powp 在 水 一 nd 处 与 Fed 在 Nn 处 相等 ， 即 
Foxp(n0) = Feeo(n), 
现在 假定 我 们 以 很 快 的 速度 抛 措 一 枚 不 均匀 的 硬币 (每 6 秒 抛掷 一 次 , 5 < 1), 每 
次 抛 丘 , 正面 向 上 的 概率 为 p = 1 一 e-%. 这 样 , 第 一 次 得 到 正面 向 上 所 抛掷 的 次 数 
为 六, 第 一 次 得 到 正面 向 上 的 时 刻 为 X6. X56 与 参数 为 和 的 指数 随机 变量 十 分 接 
近 , 这 上 第 6 章 中 , 讨论 伯 努 利和 泊 松 过 程 


对 于 n= ,2 


ns 


问 


I 


只 须 看 它们 的 分 布 函 数 即 可 ( 见 图 3.8). 在 外 
的 时 候 , 这 种 关系 显得 特别 重要 . 


指数 分 布 遂 数 1—e 迁 


儿 人 分 布 函数 1-(1 一 p 闻 ,寺中 p=1-e-% 


3.8 几何 随机 变量 和 指数 随机 变量 


时 的 分 布 函数 之 间 的 关系 . 


于 指数 分 布 函数 1 一 e*” 


布 函数 , X 是 参数 为 p = 1 一 e ”的 几何 随机 变量 . 


图 中 离散 分 布 函 数 为 X6 的 分 


6 一 0 时 , X6 的 分 布 函 数 趋 
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3.3” 正 态 随 机 变量 


续 随机 变量 X 称 为 正 态 的 或 高 斯 的 ， 若 它 的 概率 密度 函数 具有 下 列 形 
式 而 


1 于 2 
三 一 (Z 一 由) /(2c ) 
© 》 
人 


其 中 人 和 o 是 概率 密度 函数 的 两 个 参数 , o 还 必须 是 正 数 . 可 以 证 明 , fx (zx) 满足 
下面 的 概率 密度 函数 的 归 一 化 条 件 ( 见 本 章 末 尾 的 习题 ): 


1 2 3 2 
一 (Z 一 0) /(20°) rm 一 
e dx =1 
V2n0 人 


vy 


-1 0 1 2 3 4 

正 态 PDF fx(?) 正 态 CDF Fx(2) 
3.9 正 态 分 布 的 概率 密度 函数 和 分 布 函 数 (j= 1 和 o? = 1). 由 图 中 可 以 看 出 , 概率 密度 
函数 是 相对 于 均值 4 对 称 的 钟 形 曲 线 . 当 z 离开 / 的 时 候 , 概率 密度 函数 的 表达 式 


中 的 项 ec ) 很 快 地 下 降 . 在 图 中 , 概率 密度 函数 在 区 间 [1,3] 之 外 非常 接 
近 于 0 


正 态 随 机 变量 的 均值 和 方差 可 由 下 式 给 出 


由 于 X 的 概率 密度 函数 相对 于 / 对 称 , 其 均值 只 能 是 p。 至于 方差 , 依 定义 它 由 下 
式 给 出 


1 Oo 
var(X)= oo/ (Z 一 四 2e-G-m /20) gz. 


将 公式 中 的 积分 作 积分 变量 替换 y = (z - 1)/o 以 及 分 部 积分 , 得 到 
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上 面 最 后 的 等 式 是 由 于 


1 2 
一 一 ey /2dy=1, 
a 9 


这 个 公式 是 当 ==0 和 o? = 1 的 时 候 的 正 态 随机 变量 的 概率 密度 函数 的 归 一 化 条 
件 


正 态 随机 变量 具有 若干 重要 的 性 质 . 下 面 的 性 质 尤 其 
加 以 证 明 . 


3 . 
起 


EE 要 , 并 且 将 在 4.1 节 中 


线性 变换 之 下 随机 变量 的 正 态 性 保持 不 变 


设 X 是 正 态 随机 变量 , 其 均值 为 j, 方差 为 o2. 若 a 关 0 和 为 两 个 常数 ， 
则 随机 变量 


Y=aXi+Db 
仍然 是 正 态 随机 变量 , 其 均值 和 方差 由 下 式 给 出 : 


El[Y]=anx+b, var(Y) = a2c2. 


标准 正 态 随机 变量 


设 正 态 随机 变量 Y 的 期 望 为 0, 方差 为 1, 则 Y 称 为 标准 正 态 随机 变量 . 以 更 
记 它 的 CDF( 参 看 图 3.10): 


TYy)=P(Y <y)=P(Y <y)= 寺 小 et /2dt. 


通常 将 它 的 值 列 成 一 个 表 ( 见 表 3.1), 这 是 计算 有 关 正 态 随机 变量 的 概率 的 重要 的 
工具 . 


/i 


Sf 0 07 2 = Eee y 
标准 正 态 PDF 标准 正 态 CDF 和 (人 


图 3.10 标准 正 态 随机 变量 的 概率 密度 函数 f(y) = - 堪 e-”/? 和 相应 的 分 布 函数 B(y). 更 () 
的 数值 有 表 可 查 
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表 3.1 标准 正 态 分 布 表 


0.00 0.01 0.02 0.03 0.04 0.05 0.06 0.07 0.08 0.09 


0.0 0.5000 0.5040 0.5080 0.5120 0.5160 0.5199 0.5239 0.5279 0.5319 0.5359 
0.1 0.5398 0.5438 0.5478 0.5517 0.5557 0.5596 0.5636 0.5675 0.5714 0.5753 
0.2 0.5793 0.5832 0.5871 0.5910 0.5948 0.5987 0.6026 0.6064 0.6103 0.6141 
0.3 0.6179 0.6217 0.6255 0.6293 0.6331 0.6368 0.6406 0.6443 0.6480 0.6517 
0.4 0.6554 0.6591 0.6628 0.6664 0.6700 0.6736 0.6772 0.6808 0.6844 0.6879 


0.5 0.6915 0.6950 0.6985 0.7019 0.7054 0.7088 0.7123 0.7157 0.7190 0.7224 
0.6 0.7257 0.7291 0.7324 0.7357 0.7389 0.7422 0.7454 0.7486 0.7517 0.7549 
0.7 0.7580 0.7611 0.7642 0.7673 0.7704 0.7734 0.7764 0.7794 0.7823 0.7852 
0.8 0.7881 0.7910 0.7939 0.7967 0.7995 0.8023 0.8051 0.8078 0.8106 0.8133 
0.9 0.8159 0.8186 0.8212 0.8238 0.8264 0.8289 0.8315 0.8340 0.8365 0.8389 


1.0 0.8413 0.8438 0.8461 0.8485 0.8508 0.8531 0.8554 0.8577 0.8599 0.8621 
1.1 0.8643 0.8665 0.8686 0.8708 0.8729 0.8749 0.8770 0.8790 0.8810 0.8830 
1.2 0.8849 0.8869 0.8888 0.8907 0.8925 0.8944 0.8962 0.8980 0.8997 0.9015 
1.3 0.9032 0.9049 0.9066 0.9082 0.9099 0.9115 0.9131 0.9147 0.9162 0.9177 
1.4 0.9192 0.9207 0.9222 0.9236 0.9251 0.9265 0.9279 0.9292 0.9306 0.9319 


1.5 0.9332 0.9345 0.9357 0.9370 0.9382 0.9394 0.9406 0.9418 0.9429 0.9441 
1.6 0.9452 0.9463 0.9474 0.9484 0.9495 0.9505 0.9515 0.9525 0.9535 0.9545 
1.7 0.9554 0.9564 0.9573 0.9582 0.9591 0.9599 0.9608 0.9616 0.9625 0.9633 
1.8 0.9641 0.9649 0.9656 0.9664 0.9671 0.9678 0.9686 0.9693 0.9699 0.9706 
1.9 0.9713 0.9719 0.9726 0.9732 0.9738 0.9744 0.9750 0.9756 0.9761 0.9767 


2.0 0.9772 0.9778 0.9783 0.9788 0.9793 0.9798 0.9803 0.9808 0.9812 0.9817 
2.1 0.9821 0.9826 0.9830 0.9834 0.9838 0.9842 0.9846 0.9850 0.9854 0.9857 
2.2 0.9861 0.9864 0.9868 0.9871 0.9875 0.9878 0.9881 0.9884 0.9887 0.9890 
2.3 0.9893 0.9896 0.9898 0.9901 0.9904 0.9906 0.9909 0.9911 0.9913 0.9916 
2.4 0.9918 0.9920 0.9922 0.9925 0.9927 0.9929 0.9931 0.9932 0.9934 0.9936 


2.5 0.9938 0.9940 0.9941 0.9943 0.9945 0.9946 0.9948 0.9949 0.9951 0.9952 
2.6 0.9953 0.9955 0.9956 0.9957 0.9959 0.9960 0.9961 0.9962 0.9963 0.9964 
2.7 0.9965 0.9966 0.9967 0.9968 0.9969 0.9970 0.9971 0.9972 0.9973 0.9974 
2.8 0.9974 0.9975 0.9976 0.9977 0.9977 0.9978 0.9979 0.9979 0.9980 0.9981 
2.9 0.9981 0.9982 0.9982 0.9983 0.9984 0.9984 0.9985 0.9985 0.9986 0.9986 


3.0 0.9987 0.9987 0.9987 0.9988 0.9988 0.9989 0.9989 0.9989 0.9990 0.9990 
3.1 0.9990 0.9991 0.9991 0.9991 0.9992 0.9992 0.9992 0.9992 0.9993 0.9993 
3.2 0.9993 0.9993 0.9994 0.9994 0.9994 0.9994 0.9994 0.9995 0.9995 0.9995 
3.3 0.9995 0.9995 0.9995 0.9996 0.9996 0.9996 0.9996 0.9996 0.9996 0.9997 
3.4 0.9997 0.9997 0.9997 0.9997 0.9997 0.9997 0.9997 0.9997 0.9997 0.9998 


表 中 的 数据 为 标准 正 态 分 布 函数 的 函数 值 8(y) = P(Y < y), 其 中 YY 为 标准 正 态 随机 变量 , y 的 变 
化 范围 为 0 < y < 3.49. 例如 要 查找 B(1.71) 的 值 , 我 们 只 需 在 1.7 这 一 行 中 找 与 0.01 对 应 那 一 列 的 数 
值 . 故 B(1.71) = 0.956 4. 当 y 为 负 值 的 时 候 , 可 利用 公式 B(y) = 1 一 B(--y) 计算 B(y) 的 值 


AN 
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表 中 列 出 的 数据 为 8(y) 的 值 (y > 0), 利用 标准 
的 对 称 性 , 可 将 y< 0 时 B(vy) 的 值 推导 出 来 . 例如 


E 态 随机 变量 的 概率 密度 函数 


B®(—0.5) = P(Y < -0.5) = P(Y 2¥0.5)=1—P(Y <0.5) 

=1— (0.5) = 1— 0.691 5= 0.308 5. 
更 一 般 地 , 我 们 有 
B®(-y) = 二 1 一 B(y) 对 一 切 y 成 立 . 


现在 设 X 是 正 态 随机 变量 , 期 望 为 1, 方差 为 c2. 将 X 标准 化 成 为 新 的 随机 
变量 Y: 


» 
y = 上 


由 于 YY 是 六 的 线性 函数 , 所 以 Y 也 是 正 态 随机 变量 . 进一步 ， 


=0, var(Y)= Va = 
0 0 
这 样 , Y 就 是 一 个 标准 正 态 随机 变量 . 利用 这 个 事实 , 可 以 计算 关于 X 的 事件 的 概 
率 . 将 关于 X 的 事件 化 成 由 Y 表达 的 事件 , 再 利用 标准 正 态 分 布 表 , 就 可 以 计算 
关于 X 的 事件 的 概率 . 
例 3.7 (利用 正 态 分 布 函数 表 ) “ 某 地 区 的 年 降雪 量 是 一 个 正 态 随机 变量 , 期 望 为 
60 英寸 , 标准 差 o = 20 英寸 , 本 年 降雪 量 至 少 为 80 英寸 的 概率 有 多 大 ? 

记 X 为 年 降雪 量 , 令 


E[Y] = 


pe 


及 一 人 人 XX 一 60 


显然 Y 是 标准 正 态 随机 变量 . 
pO 280) =P (2F > 9 六 ~ 80— 3 ) -Pr >0=1-s0) 


其 中 GB 为 标准 


E 态 分 布 函数 . 通过 查 
再 (1) = 0.841 3， 


故 


P(X > 80)=1— &(1) = 0.158 7. 
将 上 面 的 方法 进行 总 结 , 得 到 如 下 结果 


关于 正 态 随机 变量 的 CDF 的 计算 
利用 标准 正 态 分 布 表 计 算 正 态 随 机 变量 X 的 分 布 函数 (X 的 均值 为 jv 方差 
为 o)， 下 面 分 两 部 分 进行 
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(a) 将 X 标准 化 , 即 减 去 ,再 除 以 o 得 到 标准 正 态 随机 变量 工 . 
(b) 从 标准 正 态 分 布 表 查 得 CDF 的 值 : 


一 一 一 加 
PA <a=P (Ts)=P(Y<? £)=5 (2 :)， 
(oa oO 全 
其 中 YY 是 标准 正 态 随机 变量 . 


在 信号 处 理 和 通信 工程 中 通常 将 噪声 看 成 一 个 随机 变量 , 它 加 在 信号 上 面 , 使 
之 变形 . 下 面 是 个 由 2 
例 3.8 (信号 检测 ) 一 个 传输 的 信号 为 5, S = 1 或 $= 一 1. 由 于 通信 误差 , 在 
接收 端 得 到 的 是 加 有 的 信号 , 噪声 N 是 一 个 正 态 随机 变量 , 均值 为 y= 0, 方 
差 为 o2. 如 果 接 收 端 得 到 的 混 有 噪声 的 信号 大 于 0, 则 判断 信号 3 = 1; 如 果 接 收 
端 得 到 的 混 有 噪声 的 信号 小 于 0, 则 判断 信号 5 = 一 1( 见 图 3.11). 问 这 种 判断 方法 
的 误差 有 多 大 ? 


Or 


正 态 噪声 N. 
均值 为 0, 方差 2 


二 1 车 s 十 NN 之 0 


一 1 若 *+N<0 


图 3.11 例 3.8 中 信号 检测 问题 的 图 示 . 图 中 阴影 部 分 的 面积 分 别 表示 传输 的 信号 为 -1 和 
十 1 时 发 生 误 传 的 概率 


当 传输 方 传输 的 信号 为 5 = -1 而 噪声 N > 1 此 时 S+N=N-l>0， 
接收 方 误 判 为 S = +1， 当 传输 方 传输 的 信号 为 S = 1, 而 噪声 N < -1 此 时 
S+N=N+l<0, 接 收 方 误 判 为 S= -1. 因此 , 当 5 = -1 的 时 候 , 误 判 概率 为 


P(N>1)=1-P(N< " = 4 
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由 对 称 性 可 知 , 若 发 送 的 信号 为 $ = +1, 其 相应 的 误 判 概率 也 是 1 - B(1/o). 而 
B(1/o) 可 通过 查 表 得 到 , 例如 当 c = 1 的 时 候 , 8(1/o) = B(1) = 0.841 3, 判断 误差 
的 概率 为 0.158 7. 
正 态 随机 变量 在 概率 论 中 起 着 十 分 重要 的 作用 . 其 原因 是 在 物理 、 工程 和 统计 
中 , 许多 随机 量 是 由 许多 独立 效应 车 加 而 成 的 . 而 数学 上 , 又 有 这 样 的 事实 : 大 量 
的 独立 同 分 布 的 随机 变量 (不 必 为 正 态 ) 的 和 的 分 布 近 似 地 服从 正 态 分 布 , 而 这 个 
事实 与 各 个 和 项 的 具体 的 分 布 是 无 关 的 . 这 个 事实 就 是 著名 的 中 心 极限 定理 . 我 们 
将 在 第 5 章 讨论 此 内 容 . 


3.4 ”多 个 随机 变量 的 联合 概率 密度 
现在 将 PDF 的 概念 推广 到 多 个 随机 变量 的 情况 . 与 离散 的 情况 相似 , 我 们 将 


引进 联合 、 边 缘 以 及 条 件 PDF 的 概念 , 其 直观 解释 和 主要 性 质 与 离散 情况 完全 平 
行 


设 针 和 YY 为 在 同一 个 试验 中 的 两 个 随机 变量 .车 它们 存在 联合 概率 密度 消 
数 , 则 称 XX 和 是 联合 连续 的 . 那么 联合 概率 密 | Sm 非 负 的 
二 元 函数 fxy(z,y) 称 为 XX 和 YY 的 联合 概率 密度 函数 , 如 对 任意 的 平面 上 的 二 元 
集合 B, 下 式 成 立 : 
P((X,Y)eB 
((X,Y) e )=/ 
上 式 的 积分 是 二 重 积分 , 积分 区 域 为 B. 特别 地 , 若 B = {(z,y)la< rz<b,c<y< 
dj}, 则 上 式 变 成 


[| rev (edeay, 


Pla< X<b,c<Y<d)= on 


进一步 , 若 令 B 为 全 部 二 维 平面 , 就 可 以 得 到 密度 函数 的 归 一 化 条 件 


ee 三 Jxyr(zy)dzdy = 1. 


为 解释 联合 概率 密度 函数 的 意义 , 取 6 为 一 个 充分 小 的 正 数 , 考虑 (X,Y) 落 
入 一 个 小 方块 内 的 概率 


c 十 0 
Po<Xs<o+ics<ysc+=/ 1 fxy (x,y drdy syr(ac) :62， 


我 们 可 以 将 fx,y(a,c) 看 成 (X,Y) 落 入 (a,c) 附近 单位 面积 中 的 概率 . 
联合 概率 密度 函数 包含 了 所 有 关于 (X,Y) 的 取 值 概率 的 信息 , 包括 它们 之 间 
的 相互 依赖 的 信息 . 利用 它 , 我 们 可 以 计算 任何 由 (X,Y) 所 刻画 的 事件 的 概率 . 作 
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为 特殊 情况 , 我 们 可 以 计算 单独 一 个 随机 变量 (X 或 Y) 所 刻画 的 事件 的 概率 . 例 
如 , 令 4 为 一 个 实数 的 集合 , 考虑 事件 {X < A}. 我 们 有 


P(X€A)=P(X EA,Y Ee(—%,0%0))= je fxy (x,y)dydzx. 


与 下 面 的 公式 比较 


P(X E 4) 二 | jx(z)dz 
A 
就 可 以 知道 , X 的 边缘 概率 密度 函数 由 下 式 给 出 


双人 i 
一 [-. fx,y(z,Yy)dzr 


例 3.9 (二 维 均 匀 概 率 密度 函数 ) ”罗密欧 和 朱丽叶 约定 在 某 时 某 地 约会 , 但 是 每 
个 人 都 会 延迟 , 延迟 时 间 在 0 至 1 小 时 之 间 ( 见 1.2 节 的 例子 ). 令 X 和 了 分 别 为 
罗密欧 和 朱丽叶 迟到 的 时 间 . 假定 他 们 述 到 的 时 间 (x,y) 在 单位 正方 形 中 是 等 可 能 
的 . 这 样 (X,Y) 的 联合 概率 密度 函数 就 很 自然 地 定 为 


类 似 地 可 得 


Cc, 若 0<xz<1HO<vy<1, 
0， 其他， 
其 中 c 是 一 个 常数 . 由 于 概率 密度 函数 满足 归 一 化 条 件 


Co oo 1 1 
/ / fx,y (X,Yy)drdy = / | cdzdy = 1, 


c=1. 
这 是 一 个 联合 均匀 概率 密度 函数 的 例子 . 更 一 般 地 , 令 5 是 二 维 平 面 上 的 一 个 子 
集 . 在 子 集 9 上 的 联合 均匀 概率 密度 函数 是 由 下 式 定义 的 : 


fx,y (x,y) = ms 积 ， 大 (2,y) € 5, 


fx,Y (x,y) = | 


由 此 可 以 确定 


0， 其 他 . 
对 5 的 任何 子 集 4, (X,Y) 落 入 区 域 4 的 概率 为 
1 
P((X,Y) € A)= /Jreoanas es 5 的 面积 | ey 


_ 4 的 面积 
“5 的 面积 
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例 3.10 设 X 和 YY 是 在 平面 中 集合 S 上 的 均匀 随机 变量 , 即 它们 的 联合 概率 密 
度 函 数 在 集合 5 上 为 常数 c, 在 集合 5 之 外 为 0. 而 5S 的 形状 如 图 3.12 所 示 . 现 
在 希望 求 出 概率 密度 函数 中 的 常数 c 以 及 X 和 YY 的 边缘 概率 密度 函数 . 


T 


图 3.12 例 3.10 中 的 联合 概率 密度 函数 和 相应 的 边缘 概率 密度 函数 . 


由 图 所 示 , 5 的 面积 为 4, 这 样 fxy(x,y) = c= 1/4,(zx,y) € 5. 现在 求 X 的 边 
缘 概率 密度 函数 fx(z), 我 们 只 需 固定 x 的 值 , 将 联合 概率 密度 函数 对 y 进行 积分 ， 
就 可 以 得 到 fx(z) 的 值 . 最 后 的 结果 都 列 于 图 3.12 中 . fy 的 计算 是 类 似 的 . 
例 3.11 ( 布 丰 的 抛 针 试验 )” 这 是 一 个 著名 的 例子 , 几何 概率 由 此 发 源 . 所 讨论 的 
问题 是 对 随机 放置 的 对 象 的 几何 性 质 的 分 析 . 

在 平面 上 男 了 奢 干 条 平行 线 , 相互 之 间 的 距离 为 d( 见 图 3.13). 现在 往 平 面 上 
随机 地 抛 据 一 根 针 , 针 的 长 度 为 1. 问 针 与 直线 相交 的 概率 有 多 大 ? 

我 们 假定 1 < d, 这 样 针 不 会 同时 与 两 条 直线 同时 相交 . 令 X 为 针 的 中 点 离 最 
近 的 那 一 条 直线 的 垂直 距离 , © 表示 针 与 平行 直线 之 间 的 夹 角 ( 见 图 3.13). 我 们 假 
定 (X, 昌 ) 的 联合 概率 密度 函数 为 矩形 集合 {(zx,9)|0 < xz < 4d/2,0 < 9< x/2} 上 的 
联合 均匀 概率 密度 函数 . 因此 


4/(rd)， 若 zel0,d/2] 有 0 € [0,x/2]， 
0， 其 他 . 


fx,e(7x,0) 二 | 


@ 这 个 问题 为 法 国 自 然 学 家 布 丰 于 1777 年 提出 并 解决 . 此 后 , 出 现 许多 类 似 的 问题 , 包括 拉 普 拉 斯 

(1812 年 ) 提出 的 向 具有 网 格 的 平面 上 丢 针 问题 ( 见 本 章 末 尾 的 习题 ). 这 个 问题 引起 了 科学 家 的 
兴趣 , 并 且 作 为 以 试验 产生 x 的 主要 手段 . 据说 , 在 美国 内 战 的 时 候 , 有 一 个 名 为 福克斯 的 陆军 上 
尉 在 养伤 的 时 候 用 针 进 行 抛掷 试验 , 以 获得 x 的 值 . 在 互联 网 上 也 有 人 利用 布 丰 的 想法 , 他 们 用 几 
个 图 形 模拟 程序 计算 x 的 值 . 
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由 图 3.13 可 以 看 出 , 针 与 平行 直线 相交 的 充 要 条 件 为 


1 
< sin 9， 


其 相应 的 概率 为 


P(X < (1/2)sin©) = 


XS(1/2) sin0 


/2 
= /| Ly 
ndJjo 2 


921 /2 
全 za(— cos0) 
0 
nd 


| ey 


4 T/2 AP(1/2)sin0 
= 三 | . dzd0 
nado 0 


我 们 也 可 利用 试验 来 估计 和 针 与 平行 直线 相交 的 概率 . 其 方法 是 重复 大 量 的 抛掷 针 


的 试验 , 将 针 与 平行 直线 相交 的 频率 作为 这 个 概率 的 估计 值 . 
21/(rd), 这 种 方法 也 同时 提供 了 zx 的 经 验 估 值 的 方法 . 


图 3.13 布 丰 的 抛 针 试验 . 设 针 的 中 点 与 最 靠近 的 3 


3.4.1 


于 这 个 概率 值 等 于 


行 线 的 距离 为 r, 针 的 中 点 与 针 所 在 直线 


与 平行 线 的 交点 之 间 的 距离 为 z/ sin 0. 显然 针 与 平行 线 相 交 的 充 要 条 件 为 z/ sin0 < 


1/2 


联合 分 布 函数 


设 X 和 了 是 在 同一 个 试验 中 的 两 个 随机 变量 . 我 们 定义 它们 的 联合 分 布 函 


数 为 


Fxy(r,y)= P(X <7,Y <Yy). 
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与 一 个 变量 的 分 布 函数 一 样 ， J 利于 离散 随机 变量 , 也 适用 于 连续 随机 变量 . 
特别 地 , 若 X,Y 具有 联合 概率 密度 函数 (简称 联合 PDF)fx,y, 则 


Fx,y (7,Y) = P(X We 上 fx,r(l s,t)dtds. 
反 过 来 , 联合 概率 密度 函数 也 可 从 联合 分 布 函 数 通过 求 微 商 得 到 : 
82 
fr(e)) = Bi (0) 


例 3.12 设 X 和 YY 为 单位 正方 形 上 的 联合 均匀 随机 变量 . 其 联合 分 布 函数 为 
Fxy(zy)=P(XS<7rY SY =ry, 对 0 < zr,y <&1. 
这 样 , 对 于 单位 正方 形 中 的 (zx,%)， 


OFxy O27y 
= = . 


3.4.2 ”期 望 


设 X 和 了 为 联合 连续 随机 变量 , 9 是 一 个 函数 , 则 Z = g(X,Y) 也 是 一 个 随 
机 变量 . 在 4.1 2 的 概率 密度 函数 的 计算 方法 (如 果 2Z 有 概率 密 
度 函 数 ) 现在 我 们 必须 指出 , 计算 期 望 的 期 望 规则 仍然 有 效 , 因此 


Elg(X,Y)] = sh 中 en ee 
作为 一 种 重要 的 特殊 情况 , 对 于 常数 a,b,c, 我 们 有 


ElaX+obY +a = aElX|+ bEIY]+e 


3.4.3 ”多 于 两 个 随机 变量 的 情况 


三 个 随机 变量 X、Y、2 的 联合 概率 密度 函数 的 定义 与 两 个 随机 变量 的 情况 是 
完全 相似 的 . 例如 , 满足 下 列 条 件 


P((X,Y.2)e B) = | 本 J 1 Prvz(ziy adzdydz(B 为 任意 三 元 集合 ) 
(多 ;人 这 


的 非 负 函数 fxyz(z,y,z) 就 是 X 了 、2 的 联合 概率 密度 函数 . 下列 类 型 的 关系 
都 是 成 立 的 : 


Prleg = 人 2Z(ZV 2)dz, 


小 人 ei 


144 第 3 章 一 般 随机 变量 


计算 随机 变量 g(X,Y, 2) 的 期 望 的 规则 是 


Bo(X, Ya)= 人 _ _ ooaxralowadadydz 


若 9 是 一 个 线性 函数 coX + 5 十 c2, 则 


Elax 上 + 上 +c2= aB[X] + EIY] + cE[Z2]. 


若 涉 及 的 随机 变量 的 个 数 多 于 三 个 , 相应 的 改变 是 明显 的 .例如 , 对 于 随机 变量 
XX1, XX2，,… ,Xn, 我 们 有 


ElaiX1 十 Q2 人 2 十 … 十 anXn| 一 a1E[X1| 十 a2E[X,| 十 …… 十 an 卫 [Xn]. 


多 元 连续 随机 变量 性 质 的 小 结 
令 X 和 了 为 联合 连续 随机 变量 , 其 联合 概率 密度 函数 为 fx,y. 
。 利 用 联合 概率 密度 函数 可 以 进行 概率 计算 : 


P((X,Y)€ B)= | 


(z,y)EB 


f ier 化 ,Ydzdy. 


。 久 和 YY 的 边缘 概率 密度 函数 可 利用 联合 概率 密度 函数 进行 计算 得 到 : 


JE f(x,Y) (x,y)dy, fy(ly es. fix,Y)( x,y)d 
。 联合 分 布 函数 由 公式 Fxy(z,y) = 二 P(X < zx,Y <y) 定义 ,并且 , 在 联合 概 
率 密度 函数 的 连续 点 上 , 下 面 的 公式 成 立 : 


O2Fx,y 
fx,Y(7z,y) = OrOy (x, y). 


。 久 和 YY 的 函数 g(X,Y) 定义 了 一 个 新 的 随机 变量 , 并 且 


Elg(X,Y)] = en 


若 g 是 一 个 线性 函数 aX 十 bY 十 c, 则 


ElaX+o0bY +oa = aElX|+ bElY]+e 


。 上面 的 结论 能 够 很 自然 地 推广 到 多 于 两 个 随机 变量 的 情况 


3.5 条 件 


与 离散 随机 变量 的 情况 相似 , 可 以 以 一 个 随机 事件 或 男 一 个 随机 变量 为 条 件 ， 
讨论 随机 变量 的 特性 , 并 在 此 基础 上 建立 条 件 概率 密度 函数 和 条 件 期 望 的 概念 . 各 
种 定义 和 公式 都 与 离散 的 情况 平行 , 且 其 意义 的 解释 也 都 是 类 似 的 . 在 连续 情况 下 ， 
还 会 遇 到 以 零 概率 事件 {Y = 0} 为 条 件 的 情况 , 这 在 离散 情况 下 是 无 法 处 理 的 . 
3.5.1 ”以 事件 为 条 件 的 随机 变量 


一 个 连续 随机 变量 X 在 给 定 事件 4(P(4) > 0) 发 生 的 条 件 下 的 条 件 概率 密度 
数 fxja(z) 是 这 样 定义 的 ; 它 是 一 个 非 负 函数 , 并 且 对 一 切 直线 上 的 集合 B, 满 


足 


特别 地 , 当 B 取 成 全 部 实数 集合 的 时 候 , 得 到 归 一 化 等 式 


人 Ja(z)dz = 1, 


这 说 明 fxj4 是 一 个 合格 的 概率 密度 函数 
当 我 们 将 事件 4 取 成 {X < 4} 的 形式 以 后 (P(X < 4) > 0), 由 条 件 概率 的 定 


P(XeA,XeEeB) [afx(r)dz 
P( Xe4) P(Xe)d) 


将 这 个 式 子 与 前 面 的 关于 条 件 概率 密度 函数 的 定义 比较 , 可 知 


fx(7) 
J xl4(zZ) = 本 e A) 0 


P(X EBIXEeA)= 


0， 其 他 . 


与 离散 情况 相同 , 条 件 概 率 密 度 函 数 在 条 件 集合 外 边 的 取 值 为 0. 在 条 件 集合 内 部 ， 
条 件 概 率 密度 函数 与 无 条 件 概率 密度 函数 具有 相同 的 形状 , 唯一 的 差别 是 条 件 概率 
密度 函数 还 有 一 个 归 一 化 因子 1/P(X e 4). 归 一 化 因子 1/P(X e 4) 使 得 fxja(7) 
的 积分 为 1, 从 而 fxja(zx) 成 为 一 个 合格 的 概率 密度 函数 ( 见 图 3.14). 这 样 , 条 件 
概率 密度 函数 与 通常 的 概率 密度 函数 一 样 , 不 过 它 将 已 经 发 生 的 事件 {X e 4} 作 
为 随机 试验 的 全 空间 . 
例 3.13 (指数 随机 变量 的 无 记忆 性 ) ”一 个 灯泡 的 使 用 寿命 了 是 一 个 指数 随机 变 
量 , 其 参数 为 和 阿 丽 将 灯 打 开 后 离开 房间 , 在 外 面 呆 了 一 段 时 间 以 后 (时 间 长 度 为 
,她 回 到 房间 , 灯 还 是 亮 着 . 这 相当 于 事件 4 = {T 了 > 如 发 生 了 . 记 X 为 灯泡 的 
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剩余 寿命 , 问 X 的 条 件 分 布 函数 是 什么 ? 实际 上 X 是 在 


E 4 发 生 的 条 件 


我 们 有 


P(X>zx|A)=P(T>t+z|T > 


_P(T>t+z 有 HT>D 


P(T > 
_ P(T>t+7Y) 
P(T > 
e 一 入 (t 十 z) 


此 处 我 们 利用 了 3.2 节 中 得 


图 3.14 无 条 件 概率 密度 函数 fx 和 条 件 概率 密度 函数 fx|{xea}, 其 中 4 是 区 间 [o, 中 . 注意 
在 集合 4 内 , xlfxeal 的 形状 与 产 (z) 保持 一 致 , 除了 在 y 轴 方 向 有 一 个 比例 攻 


ws 
屋 


灯泡 的 剩余 寿命 X 的 分 布 函数 是 指数 分 布 , 其 参数 也 是 和 这 和 灯泡 已 经 亮 
了 多 少 小 时 是 无 关 的 . 指数 分 布 的 这 个 性 质 就 是 指数 分 布 的 无 记忆 性 


将 完成 某 个 任务 所 需要 的 时 间 的 分 布 定 为 指数 分 布 , 那么 只 要 这 个 人 
要 完成 这 个 任务 所 需要 的 剩余 时 间 的 分 布 仍 然 是 指数 分 布 , 并 


的 . 


当 涉 及 多 个 随机 变量 的 时 候 , 相应 地 有 联合 条 件 概 率 密度 函 


. 一 般 地 , 若 
E 务 没有 完成 ， 
其 参数 也 是 不 变化 


数 . 例如 , 设 X 生 和 


Y 是 联合 连续 随机 变量 , 其 联合 概率 密度 函数 为 fx,y. 设 作为 条 件 的 正 概率 事件 


为 C={(X,Y) € 4}, XX 和 YY 的 联合 条 件 概 率 密度 函数 为 
fxY(TYy) 六 
2 e 4 
fx,ylc(7z,Y) = P(C) (2,Y) 
人 其 他 . 


此 时 X 的 相对 于 条 件 C 的 条 件 概 率 密度 函数 可 从 联合 条 件 概率 密度 函数 得 


Jic(z 多 fx,rlc(z, Yd 


这 两 个 公式 说 明 , 当 刻 画 条 件 的 事件 不 具有 形式 Xe 4, 而 是 通过 多 元 随机 变量 表 
达 的 时 候 , X 的 条 件 概率 密度 函数 可 通过 联合 条 件 概率 密度 函数 得 到 

最 后 我 们 介绍 全 概率 定理 的 条 件 概率 密度 函数 版 本 . 设 41,… , A 是 样本 空 
闻 的 一 个 分 割 , 则 


jx(z) = >》， P(A;)fx|a;(7). 


为 验证 这 个 公式 , 我 们 只 需 利 用 第 1 章 的 全 概率 定理 , 得 到 


P(X < 2) = P(A)P(X < zlAi). 


{tra= PP) fun 


再 在 两 边 对 z 求 导数 , 就 得 到 所 需 的 结果 . 


以 事件 为 条 件 的 条 件 概率 密度 函数 
。 对 于 给 定 的 事件 4(P(4) > 0), 连续 随机 变量 X 的 条 件 概率 密度 函数 fx|4 
是 满足 下 列 条 件 的 函数 : 


P(X € BIA)= 人 六 alaldz 


其 中 B 是 实数 轴 上 的 任意 集合 . 
设 4 是 一 个 实数 集合 , 满足 条 件 P(X < 4) > 0, 则 


fx(7) 起- 
， 契 EL4， 
fx|{xeAa} (x) = |w E A) 


0， 其 他 . 


设 41, A2,… ,An 为 互 不 相 容 的 n 个 事件 , 对 每 个 i, P(A4i;) > 0, 并 且 这 些 
事件 形成 样本 空 间 的 一 个 分 割 . 则 


-Dr i) fx|Ai(T 


(全 概率 定理 的 一 种 变形 ). 
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下 面 的 例子 用 全 概率 公式 来 计算 概率 密度 函数 . 


例 3.14 你 家 离 城 铁 车 站 比较 近 . 已 知 从 早晨 6:00 开始 , 每 一 刻 钟 有 一 列车 进入 城 
铁 车 站 . 而 你 步行 到 达 城 铁 车 站 的 时 刻 为 7:10 到 7:30 之 间 , 并 且 到 达 时 刻 是 [7:10， 
7:30] 上 均匀 分 布 的 随机 变量 . 求 你 在 车 站 上 等 车 时 间 的 概率 密度 函数 . 

记 X 为 你 到 达 车 站 的 时 刻 , X 的 分 布 为 [7:10, 7:30] 上 均匀 随机 变量 ( 见 图 
3.15a). 记 了 为 等 待 时 间 . 我 们 利用 全 概率 公式 计算 Y 的 概率 密度 函数 fy. 记 

4={f7:10 芝 和 入 7:15} ={ 你 赶 上 7:15 的 车 }， 
B= {7:15 < 闫 <7:30} = 了 {你 赶 上 7:30 的 车 }. 
事件 4 发 生 的 条 件 下 , 你 到 达 车 站 的 时 刻 X 是 在 [7:10,7:15] 上 均匀 随机 变量 . 这 
样 你 等 待 时 间 Y 是 在 0 分 到 5 分 之 间 的 均匀 随机 变量 ( 见 图 3.15b). 类 似 地 , 在 B 
的 条 件 之 下 , Y 是 在 0 分 到 15 分 之 间 的 均匀 随机 变量 ( 见 图 3.15c). 利用 全 概率 定 
理 的 变形 , Y 的 概率 密度 函数 为 
fy(y) = P(A)fyIa(y) + P(B)fy|B(Y), 
( 见 图 3.15d). 这 样 
11 3 1 1 
Un 
1 3 1 1 
I ee 
人 fx(2) 
1/20 |.… 
7:10 7:15 7:30 你 5 Vy 


5 
(9) 
例 3.14 


2 


图 3.15 


的 概率 密度 函数 fx, fy1a, fylB 逢 


人 


1 fy 


3.5.2 ”一 个 随机 变量 对 另 一 个 随机 变量 的 条 件 

设 X 和 了 为 联合 连续 随机 变量 , 其 联合 概率 密度 函数 为 fx,y(zx,y). 对 任何 
满足 fy(y) > 0 的 y 值 , 在 给 定 Y=y 的 情况 下 , X 的 条 件 概 率 密度 函数 由 下 式 定 
义 : 


fxlY (zly) = 人 
这 个 定义 与 离散 情况 下 的 公式 pxjy(x|y) = px,y (x,Y)/py(y) 完全 相似 . 
在 考虑 条 件 概率 密度 函数 的 时 候 , 最 好 将 y 值 固定 下 来 , 并 将 xir(zly) 看 
成 xz 的 函数 ， 作 为 z 的 函数 , 条 件 概率 密度 函数 fxjy(zly) 与 联合 概率 密度 函 
数 fxy(z,y) 具有 相同 的 形状 , 这 是 因为 它们 仅 相 差 一 个 与 zx 无 关 的 常数 因子 
应 (四 ( 见 图 3.16). 另外 ， 


fy(y) = 三 Jr ydz 


暗示 了 归 一 化 性 质 
小 fxiy (zdr = 1 


所 以 , 对 任何 固定 的 y 值 , fxjy(x|ly) 是 一 个 合格 的 概率 密度 函数 . 


y 


4 1 Ar 本 
8 1/2 fnr(ol2.5) 
— ”> 
2 1 [| A Y(4| 1 5) 
| 1 2 3 5 


Ce 


| 2 3 人 

图 3.16 条 件 概率 密度 函数 fxiy (zly) 的 直观 解释 . 设 X 和 YY 的 联合 概率 密度 函数 是 在 5 

上 的 均匀 概率 密度 函数 . 对 固定 的 y 值 , 我 们 将 联合 概率 密度 函数 沿 Y = y 这 一 片 
进行 归 一 化 使 得 它 的 积分 等 于 1 
例 3.15 ( 圆 上 的 均匀 概率 密度 函数 ) ”本 在 玩 一 个 
掷 飞 标 游戏 , 靶 是 一 个 半径 为 ” 的 圆 板 ( 见 图 3.17). y 
我 们 假定 飞 标 总 是 掷 向 目标 ， 而 每 一 个 落 点 (zx,9) 
是 等 可 能 的 ， 所 以 作为 落 点 的 (X,Y) 的 联合 概率 


密度 函数 是 圆 上 的 均匀 概率 密度 函数 . 根据 例 3.9， 本 
X 和 YY 的 联合 概率 密度 函数 为 
1 
aii) 若 (zx,y) 在 圆 内 ， 
jxr(z, 妨 = 4 国 的 面积 
0， 其 他 图 3.17 例 3.15 中 的 圆 形 地 
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1 上 关 

2 三 2 2 < 72， 

一 -| nT 
0， ”其 他 . 


现在 计算 条 件 概率 密度 函数 fxljy(zx|ly). 为 此 先 计算 边缘 概率 密度 函数 fy(y). 


对 于 外 > mm 广 ( 轨 =0. 对 于 yl <7, 通过 下 列 计算 得 到 fy(y) 的 值 : 


fy(y) = 由 fx,Y (x,Yy)dzr 
1 


= 一 了 dz 
AT X24+Yy2<r2 


1 Vr2—y? 
TI ”一 Vr2 一 好 
2 
二 12 ye 


注意 ,了 的 边缘 概率 密度 函数 不 是 均匀 的 . 
X 的 条 件 概率 密度 函数 为 
1 
fx,r (7z,Y) Nr2 1 


fxly (zly) = = 7 + rT. 


人 


Ar2 


这 样 , 对 固定 的 y, 条 件 概率 密度 函数 fxjy 是 均匀 的 概率 密度 函数 . 


现在 来 解释 条 件 概 率 密度 函数 的 概率 意义 . 令 有 H 和 62 是 两 个 小 的 正 数 , 考虑 


条 件 B= {vy YY < y+ 52}. 我 们 有 


P(x< X<7r+oly YY y+t+6)= 


ul 


P(r<X<rt+o Hvy<Y<yto6,,) 


ACE 
fy (y)62 


= jxir(z| 力 01 


是 当 5 一 0 的 极限 情况 , 即 
Plz 冬 和 和 zi = oO fxjy(z|Y) NH (0 较 小 )， 


更 一 般 地 
P(X e AY = = 人 入 welndr 


换言之 ,fxjy(z|y)1 就 是 在 给 定 了 < ly,y + 纪 的 条 件 之 下 , X 属于 小 的 
[x,z 十 51] 的 概率 . 由 于 fxly (z|y)61 并 不 依赖 于 62, 我 们 可 以 将 fxly (Z|Y) 61 认为 


区 间 
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在 第 1 章 中 , 给 定 零 概 率 事件 Y = y, 相应 的 条 件 概率 是 没有 定义 的 . 但 是 , 上 述 公 
式 给 出 了 以 零 概 率 事件 为 条 件 的 条 件 概率 的 一 个 自然 的 定义 . 此 外 , 条 件 概率 密度 
函数 fxjy(z|y) (作为 x 的 函数 ) 可 以 解释 为 X 的 在 给 定 Y =y 之 下 的 概率 律 . 

正如 离散 情况 一 样 , 我 们 可 以 利用 条 件 概率 密度 函数 fxjy 和 边缘 概率 密度 函 
数 fy 计算 相应 的 联合 概率 密度 函数 fx,y. 事实 上 , 为 了 刻画 一 个 概率 律 , 我 们 并 
不 需要 直接 列 出 联合 概率 密度 函数 fx,y, 通常 只 需 先 给 出 Y 的 概率 律 fy, 然后 给 
出 已 知 Y 了 =y 的 情况 下 X 的 (条 件 ) 概率 密度 函数 fxjy(z|y). 
例 3.16 ”一 辆 汽车 正在 通过 交通 测速 雷达 , 汽车 的 速度 是 一 个 随机 变量 X. 通常 
假定 X 是 一 个 指数 随机 变量 , 其 平均 值 为 每 小 时 50 英里 . 而 测速 雷达 的 测量 值 Y 
是 带 有 误差 的 . 测量 误差 为 正 态 随 机 变量 , 其 均值 为 0, 标准 差 为 车 速 的 1/10. X 
和 了 的 联合 概率 密度 函数 是 什么 ? 

根据 题 意 , X 的 边缘 概率 密度 函数 为 


一 2Z/50 - 关 
pe 1 ， 若 zy>0 


0， 其 他 . 


而 对 于 固定 的 X = z, 测量 值 Y 的 条 件 概率 密度 函数 为 正 态 概率 密度 函数 , 其 期 
望 为 xz, 方差 为 z2/100. 这 样 


e 一 (9 一 z) /1(2z21100) 


1 
fylx(y|7x) = VOD 
从 而 , X 和 YY 的 联合 概率 密度 函数 为 
fx,rY (x,y) = fx(z)fylx (yz) 
二 -x/50_10 -50(y-z)?/s? 起 
I ee " ， 石 Z>0,VE( 一 co,co)， 
其 


0， 


以 另 一 个 随机 变量 为 条 件 的 条 件 概率 密度 函数 
设 XX 和 了 为 联合 连续 随机 变量 , 其 联合 概率 密度 函数 为 fx,y. 
。X 和 了 的 联合 边缘 和 条 件 概 率 密度 函数 是 相互 关联 的 . 它们 的 关系 用 
下 面 的 公式 表示 


fxY(7x,y) = fy(y)fxlY (ry), 
= 产 WPrelog 


条 件 概率 密度 函数 fxly(zly) 只 在 集合 {ylfy(y) > 0} 上 有 定义 . 
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e。 关 于 条 件 概率 , 我 们 有 


P(X€ AY=Y)= | Fever 


对 于 多 个 随机 变量 的 情况 , 其 推广 是 很 自然 的 . 例如 可 定义 如 下 的 条 件 概 率 密 


度 函 数 : 
fx,rlz(7,y|z) = Pe 对 一 切 fz(z) > 0 成立， 
fxly,z(z|y, 2) = jx,z (2) 对 一 切 fy,z(y,z) > 0 成立. 
fy,z(y, 可 
对 于 概率 密度 函数 , 相应 的 乘法 规则 也 是 成 立 的 : 


fx, y,2(2, 小 2) = 


fxly,z(T|y, 2)fy1z(y|z)fz(2). 


本 贡 中 的 其 他 公式 , 也 可 推广 到 多 个 变量 的 情况 . 


3.5.3 ”条 件 期 望 


对 于 连续 随机 变量 X, 给 定 事件 4 的 条 件 期 望 E[X|4] 的 定义 与 无 条 件 期 望 


的 定义 相似 , 不 过 现在 我 们 利 


有 条件 概 率 密 


; 度 函 数 fxja 来 定义 . 类 似 地 , 条 件 期 户 


E[X|Y = Wj 是 通过 条 件 概 率 密度 函数 fxly 进行 定义 的 . 关于 期 望 的 各 种 性 质 可 以 


原封 不 动 地 搬 到 条 件 期 望 中 来 . 要 沪 


完全 相似 的 , 只 是 将 离散 情况 下 的 求 和 号 变 成 积分 号 


主意 的 是 , 此 处 所 有 的 公式 与 离散 情况 的 公式 是 


号 , 分 布 列 改 成 概率 密度 函数 . 


条 件 期 望 性 质 的 小 结 
记 X 和 了 为 联合 连续 
@ X 在 给 


随机 变量 , 4 是 满足 P(4) > 0 的 事件 . 
定 事 件 4 之 下 的 条 件 期 望 由 下 式 定 义 


BIX 风 = 人 apxa(odr 


给 定 了 二 y 之 下 的 条 件 期 望 上 


下 式 定 义 


E[X|IY = y = 多 ZJjJxir(zly)dz 


。 期 望 规 则 仍然 有 效 : 


BCO 辐 = 人 sxratada 


Bo = = /gts 


。 全 期 望 定理 : 设 41, 4?,… , A 为 互 不 相 容 的 n 个 事件 , 对 每 个 i, P(Ai;) > 
0, 并 且 这 些 事 件 形成 样本 空间 的 一 个 分 割 . 则 


相似 地 ， 
PDB- BXlY = yf (Way 


。 涉及 几 个 随机 变量 的 函数 的 情况 , 具有 完全 相似 的 结果 . 例如 


Elg(X,Y)|Y =y = | g(x,y)fxlr (rly)dz, 


BC = Box PY = yy (Way 


关于 期 望 规则 的 证 明 与 无 条 件 期 望 规则 的 证 明 完 全 相同 , 在 此 不 予 重 复 论 证 . 
现在 我 们 验证 全 期 望 定理 . 对 于 第 一 个 公式 , 利用 全 概率 定理 


fx(7) = 2_P(Ai)fx Ai (72) 


在 两 边 乘 x, 然后 在 (一 0o0,00) 上 积分 , 便 得 到 全 期 望 定 理 的 第 一 个 公式 . 
关于 全 期 望 定理 的 第 二 个 公式 , 可 从 下 面 一 系列 等 式 得 到 : 


太 spxr =Yfy(Wdy = LS pe cplelnda 户 (dy 
人 i zfxly (zly) fy (y)drdy 


人 太 aprr(eazdy 


=/ |/ fv Way ae 
ss ed 


= E[X]. 


全 期 望 定理 可 用 于 随机 变量 的 期 望 、 方 差 和 各 阶 窍 的 计算 . 
例 3.17 (阶梯 形 概率 密度 函数 的 均值 和 方差 ) 假定 X 的 概率 密度 函数 为 下 列 的 
阶梯 函数 
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( 见 图 3.18). 现在 记 
Ai = {XX 落 入 第 一 个 区 间 [0,1]}， 


42 = {XX 落 入 第 二 个 区 间 (1,2]}. 1 二 
图 3.18 例 3.17 中 的 阶梯 形 概率 
利用 X 的 概率 密度 函数 , 得 到 密度 函数 


呈 xd = 3 PAD)= md- 


此 外 , 我 们 还 可 以 利用 X 的 条 件 概率 密度 函数 计算 X 在 41 和 hs 之 条 件 下 的 均 
值 和 二 阶 窍 . 由 于 fxlai 和 fx|As 都 是 均 信 入 概率 密度 函数 ， 从 例 3.4 的 结论 可 知 , 区 
间 [ww 中 上 具有 均匀 分 布 的 随机 变量 的 均值 是 (a 十 5)/2, 二 阶 算是 (@? + op 十 好)/3， 
于 是 


EIXIA1] = 3, EIXIAs] = 3 
E[X*|Ai] = 5, E[X*|A2] = 
现在 利用 全 期 望 定理 , 得 到 
EIX] = P(4JEIXI4i] +P(42)EIXI4?] = 5 : > 十 ; : 2 
E[X*] = P(A1)E[X*|Ai] +P(42>)E[IX214?] = : 5 十 > : E 
SN 15 49 11 
var(X) = E[X*] — (EI[X])* = Er 


本 例 的 方法 可 以 推广 到 多 于 两 段 的 阶梯 形 概率 密度 函数 的 期 望 和 方差 的 计算 . 
3.5.4 ”独立 性 


与 离散 的 情况 完全 相似 ， ee 量 X 和 并 的 联合 概率 密度 函数 是 
它们 各 自 的 边缘 概率 密度 函数 的 乘积 ， 


fxY(z,9) = fx(z)fy(y) 对 一 切 z 和 yy 成立， 


则 称 X 和 了 相互 独立 . 比较 公式 fx,y(z,y) = fxjy(zx|y)fy(y) 可 知 , 独立 性 条 件 
与 下 式 是 等 价 的 : 


jxlr(zly) = 产 (z) 对 一 切 > 和 满足 应 (y) > 0 的 y 成 立 . 


基于 对 称 性 , 下 列 条 件 也 与 独立 性 条 件 等 价 : 

应 Ix(yz) = fy(y) 对 一 切 y 和 满足 fx(x) > 0 的 zz 成立 . 
自然 地 ,两 个 随机 变量 的 相互 独立 性 的 概念 可 以 推广 到 多 个 随机 变量 的 相互 独立 
性 . 例如 设 X、Y、2 为 三 个 联合 连续 随机 变量 . 若 它们 的 联合 概率 密度 函数 具有 
下 面 的 表达 式 

fx,y,2(7,Y,2) = fx(r)fy(y)fz(z) YT— 切 z、y、z 成 立 ， 

则 称 它们 是 相互 独立 的 . 
例 3.18 (独立 的 正 态 随机 变量 ) ” 设 X 和 了 是 相互 独立 的 正 态 随机 变量 , 其 期 户 
和 方差 分 别 为 We、H 和 o2 、c2. 它们 的 联合 概率 密度 函数 为 


(z— He) 地 一 0 } 


2 2 
207 20y 


fxv (oy) = f(A = ep{ 
vOv 


联合 概率 密度 函数 的 形状 像 一 口 钟 , 中 心 在 (jz,y), 但 是 这 口 钟 不 是 圆 形 的 钟 , 在 
2 轴 和 y 轴 方 向 上 的 宽度 分 别 与 cx 和 cy 成 正比 . 为 了 对 概率 密度 函数 有 一 个 直 
观 的 了 解 , 我 们 考虑 这 口 钟 的 等 高 线 , 即 z,y 平面 上 , 概率 密度 函数 等 于 某 个 常数 
的 点 的 集合 . 这 些 等 高 线 可 以 由 下 列 方程 表示 : 
(Z—Ha) (YY—Hy) yp 
202 | De = 党 数 . 
这 些 等 高 线 都 是 以 (yw,py) 为 中 心 的 椭圆 , 它们 的 长 轴 和 短 轴 分 别 平行 于 两 个 坐标 
轴 ( 见 图 3.19)， 哪 个 轴 为 长 轴 , 要 看 cx 和 cy 的 大 小 ， 若 oz = cy 则 等 高 线 为 
圆 . 


图 3.19 相互 独立 的 正 态 随机 变量 X 和 YY 的 联合 概率 密度 函数 的 等 高 线 , 分 布 的 期 望 和 方差 
分 别 为 pa、 py 和 o2、o2 
若 X 和 YY 相互 独立 , 则 任何 两 个 形 如 {Xe 4} 和 {Ye B} 的 事件 是 相互 独 
立 的 . 事实 上 ， 


@ 式 中 exp(z) 表示 指数 函数 ez . 


编者 注 
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p(xeABYeB= | 


} i 
XEAJyEB 


S| fx (a)fy (Wdydz 
XEAJyEB 

= Ls fx(r)dzr 全 fy(ydy 

=P(X€ A)P(Y €B). 


特别 地 , 独立 性 强 涵 


Fxy(z,y) = P(X <I,Y <Yy)=PX < 7)PY < Y= Fx(r)Fy(Yy). 
这 些 结论 的 逆 命题 也 是 成 立 的 , 见 本 章 末尾 的 习题 . 性 质 
Fxy(z,y) = Fx(z)Fy(y) 对 一 切 z 和 yy 成立 


可 以 作为 两 个 随机 变量 相互 独立 的 一 般 定义 , 即使 是 X 为 离散 , Y 为 连续 的 情况 ， 
这 个 定义 也 是 适用 的 . 
相似 于 离散 的 情况 , 可 以 证 明 : 若 X 与 了 相互 独立 , 则 对 任意 函数 g 和 ,下 
式 成 立 : 


Plg(X)n(Y)) = Elg( X)EI(Y)]. 
最 后 , 独立 随机 变量 之 和 的 方差 等 于 它们 的 方差 之 和 


连续 随机 变量 的 相互 独立 性 
令 X 和 了 为 联合 连续 随机 变量 . 


让 


fxy(z,y) = fx(7)fy(y) 对 一 切 x 和 y 成 立 ， 
则 X 和 了 相互 独立 . 
e 若 X 和 了 相互 独立 , 则 


E[XY] = E[X]E[Y. 


进一步 地 , 对 于 任意 函数 9 和 hh ,随机 变量 g(X) 和 PKY) 也 是 相互 独立 
的 , 于 是 


。 若 革 和 YY 相互 独立 , 则 


var(X+Y)= var(X)+var(Y). 
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3.6 ”连续 贝 叶 斯 准则 


在 许多 实际 问题 中 , 我 们 会 遇 到 未 观察 到 的 对 象 . 用 一 个 随机 变量 X 代表 这 
种 未 观察 到 的 量 , 设 其 概率 密度 函数 为 f/x. 我 们 能 够 观察 的 量 是 经 过 噪声 干扰 的 
量 Y, Y 的 分 布 律 是 条 件 分 布 律 , 其 条 件 概率 密度 函数 为 yjx. 当 Y 的 值 被 观察 
到 以 后 , 它 包含 X 的 多 少 信息 呢 ? 这 类 问题 与 1.4 节 处 理 的 推断 问题 类 似 , 在 1.4 
节 , 我 们 用 贝 叶 斯 准则 解决 推断 问题 ( 见 图 3.20). 现在 唯一 的 不 同 之 处 是 我 们 处 理 
的 是 连续 随机 变量 . 


fx(D) frx(A2) 
图 3.20 推断 问题 的 框图 . 我 们 有 一 个 未 观察 到 的 随机 变量 X, 其 概率 密度 函数 fx 是 已 知 的 ， 
同时 我 们 得 到 一 个 观察 随机 变量 Y, 其 条 件 概率 密度 函数 为 fy|x. 给 定 Y 的 观察 什 

y, 推断 问题 化 解 成 条 件 概 率 密度 函数 fxjy (zly) 的 计算 问题 


注意 ， 当 观察 到 事件 Y = y 以 后 , 所 有 的 信息 都 包含 在 条 件 概率 密度 函数 
fxly (zly) 中 . 现在 上 只 须 计算 这 个 条 件 概 率 密度 函数 . 利用 公式 fxfylx = fxy = 
frYfxly 可 以 得 到 


fxly (zly) = 人 
这 就 是 我 们 所 求 的 公式 . 由 于 归 一 化 性 质 万 Ar(zly)dz = 1, 与 之 等 价 的 表达 
fxy (zly) __ fx (5) fylx (ye) | 
[ov fx(t) fyix (ylt)dt 


例 3.19 通用 照明 公司 生产 一 种 灯泡 , 已 知 其 使 用 寿命 了 为 指数 随机 变量 , 其 概 
率 密度 函数 为 Xe-Y,y > 0. 按 过 往 经 验 , 在 任意 给 定 的 一 天 参数 和 实际 上 是 一 个 
随机 变量 , 其 概率 密度 函数 为 区 间 [1,3/2] 上 的 均匀 分 布 . 现在 取 一 只 灯泡 进行 试 
验 , 得 到 灯泡 的 寿命 数据 . 得 到 数据 以 后 , 对 于 和 的 分 布 有 什么 新 的 认识 ? 

我 们 将 和 看 成 一 个 随机 变量 A, 作为 对 和 的 初始 认识 , A 的 概率 密度 函数 是 


fA(N)=2, 1<AM<3/2. 


当 得 到 数据 y 以 后 , 关于 A 的 信息 包含 于 条 件 概率 密度 函数 fjy(Aly) 中 , 利用 连 
续 贝 叶 斯 准则 , 得 到 


fa(NfyIa(y|N) 四 2 和 Ne 一 X% 
/ falt)fyia (yt)at 2te-tydt 


faly (MY) = 1<A<3/2. 


p23 
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3.6.1 ”关于 离散 随机 变量 的 推断 

在 实际 问题 中 , 未 观察 到 的 随机 变量 可 能 是 离散 的 随机 变量 . 例如 , 在 通信 问 
题 中 传输 的 信号 是 一 个 二 进 制 的 信号 , 经 过 传输 以 后 , 混入 的 噪声 是 正 态 随机 变量 ， 
这 样 , 观测 到 的 随机 变量 就 是 连续 的 随机 变量 ; 或 者 在 医疗 诊断 中 , 我 们 观察 到 的 
量 是 也 是 连续 的 测量 值 , 例如 体温 或 血液 样本 中 的 指标 . 这 种 情况 下 我 们 需要 将 贝 
叶 斯 准则 作 适 当 的 改变 . 

现在 我 们 研究 一 种 特殊 情况 , 未 观察 到 的 是 一 个 事件 4. 我 们 不 知道 4 是 否 
发 生 了 . 事件 4 的 概率 P(4) 是 已 知 的 . 设 了 是 一 个 连续 的 随机 变量 , 并 且 假定 条 
件 概 率 密度 函数 fyja(y) 和 jac(y) 是 已 知 的 . 我 们 感 兴趣 的 是 事件 4 的 条 件 概 
率 P(A|Y = 急 . 这 个 量 代 表 得 到 观察 值 y 以 后 关于 事件 4 的 信息 . 
由 于 事件 {Y = 分 是 一 个 零 概 率 事 件 , 我 们 转 而 考虑 事件 {y < Y < y+ 引 , 其 
中 5 是 一 个 很 小 的 正 数 , 然后 令 5 趋向 于 0. 利用 贝 叶 斯 准则 , 假定 户 (y) > 0, 我 
们 得 到 


P(AlIY = TP(Aly < Y < y+d) 
P(A)P(y <Y < y+6|4) 
~ PYy<Y<y+d 
~ P(A)fyIa(Wo 
fy (y)6 
_ P(A4)fyla(y) 
fy(y) | 


利用 全 概率 定理 , 可 将 上 式 的 分 母 写成 
fy(y) = P(A)fyIa(y) + P(A )fy| ae(Y), 


这 样 , 得 到 


P(A)fylaly) 
(A)fyla(y) + P(A)fyIa(y) 
现在 令 事件 4 具有 形式 {N = n}, 其 中 N 是 一 个 离散 随机 变量 , 代表 未 观察 
到 的 随机 变量 . 记 pw 为 入 的 分 布 列 . 令 了 为 连续 随机 变量 , 对 任意 N 的 取 值 mw， 
Y 具有 条 件 概率 密度 函数 户 jw(glm). 这 样 上 面 的 公式 变 成 


P(AlY =Y)=5 


PN fyIN (Vn) 


BL 


利用 下 面 的 全 概率 定理 


fy(y) = > PN(D) frin(yl), 
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得 到 
pn (n)fyln (yn) 


P(N=nlY =w)= 
( | 多 > PN (Dfrin(yl) 


例 3.20 (信号 检测 )” 设 5S 是 一 个 只 取 两 个 值 的 信号 . 记 P(S =1)=p 和 P(S = 
一 1) = 1 一 p. 在 接收 端 , 得 到 的 信号 为 Y= N +53, 其 中 N 是 一 个 正 态 噪声 , 期 望 
为 0, 方差 为 1, 并 且 与 8 相互 独立 . 当 观 察 到 的 信号 为 y 的 时 候 , 5 = 1 的 概率 是 
多 少 ? 
对 于 给 定 的 5 = s, Y 是 一 个 正 态 随 机 变量 , 期 望 为 s, 方差 为 1. 应 用 刚才 得 
到 的 公式 


i _? 1)/2 
和 全 新 三 2sCDArlsC) _ V2 : 
fy(y) P_ -yD /2 ~ Pe-(w+1)/2 
27 V2n 
将 上 式 简化 得 
2 
P(S=1lY=Y)= ~ 


Dey 十 (1 一 D)e-y 


注意 , P(5 =1|Y =y) 当 y 一 -co 时 趋 于 0, 当 y 一 co 时 趋 于 1, y 在 实数 轴 上 变 
化 时 , P(S = 1|lY = y) 是 y 的 严格 上 升 函数 , 这 符合 直观 的 理解 . 


3.6.2 ”基于 离散 观察 值 的 推断 


与 前 面 的 情况 相反 , 现在 观察 值 是 离散 的 . 我 们 可 以 反 解 前 面 的 关于 P(A|Y = 
y) 的 公式 , 得 到 


人 2 三 


不 


et 


和 归 一 化 性 质 [ja(y)qy = 1, 其 相应 的 等 价 的 表达 式 为 


广 (J)P(4 人 三 切 

~ yOP(AIY = tat 
这 个 公式 可 以 用 于 对 YY 的 推断 . 当 事 件 4 发 生 的 时 候 , 全 部 关于 Y 的 信息 都 包含 
在 这 个 条 件 概率 密度 函数 中 . 当 事 件 4 具有 {N = n} 的 形式 的 时 候 , 可 以 得 到 相 
应 的 公式 , 其 中 是 一 个 观察 到 的 离散 随机 变量 , 该 离散 随机 变量 在 条 件 分 布 列 
DNIy(m|y) 下 依赖 于 YY. 


fyla(y) = 
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连续 随机 变量 的 贝 叶 斯 准则 
Y 为 连续 随机 变量 . 
若 X 为 连续 随机 变量 , 我 们 有 


fxly (zy) fy(y) = 产 (站 ) 户 IxGylz)， 


fxiy (zl) = fx(z)fyix(Yr) fx(z)fyix(yz) 


fY (9) | £ Ra 
。 若 和 N 为 离散 随机 变量 , 我 们 有 


fy(VP(N = nlY = y) = pN(n)fyIN (yn), 


得 到 的 贝 叶 斯 公式 为 
A PN (n)fyIn (yn) a pN(n)fyin(y|n) 
0 
和 
Fo = OPN = nlY = fr(WP(N = ly = 
pn(n) OP =nY = 0 


。 对 于 事件 4, 关于 P(AlY =y) 和 fyja(y) 具有 类 似 的 贝 叶 斯 公式 ， 


3.7 “小 结 和 讨论 


通常 用 概率 密度 函数 来 刻画 连续 随机 变量 .连续 随机 变量 的 概率 密度 函数 用 
于 计算 由 随机 变量 刻画 的 事件 . 概率 密度 函数 与 离散 情况 下 的 分 布 列 的 作用 完全 相 
同 , 唯一 的 区 别 是 计算 概率 的 时 候 , 它 使 用 积分 计算 , 而 离散 的 情况 下 使 用 求 和 进 
行 计 算 . 联合 概率 密度 函数 的 作用 与 离散 情况 下 的 联合 分 布 列 一 样 , 均 用 于 计算 
多 个 随机 变量 刻画 的 事件 的 概率 . 条 件 概 率 密度 函数 用 于 计算 给 定 条 件 随 机 变量 的 
值 的 情况 下 的 条 件 概率 . 条 件 概 率 的 一 个 重要 的 应 用 是 推断 问题 . 本 章 介 绍 了 各 种 
各 样 的 用 于 推断 的 贝 叶 斯 准则 . 
在 概率 模型 中 , 有 许多 十 分 重要 的 连续 随机 变量 . 本 章 介绍 了 几 个 分 布 , 并 且 
在 下 面 列 出 了 它们 的 重要 的 特性 指标 : 期 望 和 方差 ， 


YY 


连续 随机 变量 的 某 些 结果 
[ao 上 的 连续 均匀 随机 变量 


E[X]= 2 


分 布 参数 为 入 的 指数 随机 变量 


十 加 
2 12 


Xe-Xz， 若 z>0， 1 一 er>z， 若 zy>0， 
fx(7x) = Fx(7) = 
0， 其 他 ， 0， 其 他 ， 
1 1 
E[X| = x var(X)= pe 


1 (zu)2/(202 
fx(z) = A (z—1)° /(2 2 
E[X]=W, var(X)= 0 


本 章 也 引入 了 分 布 函 数 的 概念 . 分 布 函数 可 以 刻画 一 般 的 随机 变量 , 它 涵盖 了 


连续 和 离散 的 随机 变量 , 也 可 


数 的 概念 更 加 一 般 . 在 离散 的 各 


连续 情况 下 , 将 分 布 函数 微分 , 得 到 概率 密度 函数 


习 题 


连续 随机 变量 和 概率 密度 函数 


1. 设 X 为 区 间 [0,1] 上 的 均匀 分 布 的 随机 变量 . 考虑 随机 变量 Y = 9(X), 殿 


基业 元 113; 
若 Z > 1/3. 


首先 求 出 Y 的 分 布 列 , 然后 利用 


四 
结果 . 


期 望 的 计算 公式 求 出 Y 的 期 望 . 


2. 拉 普 拉 斯 随机 变量 . 设 X 的 概率 密度 函数 为 


于 刻画 既 非 连续 又 非 离散 的 随机 变量 . 因此 分 布 函 
了 况 下 , 我 们 可 将 分 布 函 数 进行 兰 分 , 得 到 分 布 列 ; 在 


下 


| 期望 规 则 验证 计算 
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六 9 


其 中 和 为 分 布 的 正 参 数 . 验证 fx 的 归 一 化 条 件 , 并 计算 X 的 均值 和 方差. 


3.” 对 于 离散 或 连续 随机 变量 X, 证 明 下 式 成 立 


Ce 


EIX] = 人 P(X > ojdz :| P(X < —z)dz. 


解 ” 先 假定 X 是 连续 随机 变量 . 我 们 有 


= 让 yfx(y)dy, 
0 


其 中 第 二 个 等 式 是 交换 积分 次 序 的 结果 , 在 交换 次 序 的 过 程 中 利用 了 集合 等 式 {(z,y)|0 < 
| 


x<o0,r <Y<%0}= {7,Y)0 < TYy,0 YY < 0). 类 似 地 , 可 以 证 明 


P(X < —z7z)dz = -三 yfy (ydy. 


利用 上 述 两 


个 等 式 , 可 以 得 到 所 需 的 结果 . 
其次 , 设 X 是 离散 随机 变量 , 此 时 


y>0 
= >》 ypx(y), 
y>0 
其 余部 分 的 证 明 与 连续 情况 完全 相似 . 
4.” 证 明 下 列 期 望 规则 : 
Elg(X)] = g(z)fx(z)dz, 


其 中 fx 是 连续 随机 变量 X 的 概率 密度 函数 . 


解 ”将 函数 9 写成 两 个 非 负 函 数 的 差 : 


= max{g(x),0}, 9 (x) = max{—g(7x),0}. 对 于 上 > 0, 9g(z) > 与 gf(z) >t 


TT 

UD 
本 
父 
5 


现在 利 习题 3 的 结果 


上 式 右边 的 第 一 项 等 于 


站 2Z)dzdt = | x)dtdz = / gt (xz)fx (zx)dzx. 
ee a -88 


对 称 性 , 对 于 右边 的 第 二 项 有 


利 


将 两 个 结果 合并 , 得 到 


节 ”分 布 函数 


.按照 均匀 分 布 律 , 在 一 个 三 角形 内 随机 地 取 一 个 点 . 设 已 知 三 角形 的 高 , 求 这 个 点 到 底 边 
的 距离 X 的 分 布 函数 和 概率 密度 函数 . 
. 简 去 银行 取款 , 有 1 个 或 0 个 顾客 在 她 前 面 , 这 两 种 情况 是 等 可 能 的 . 已 知 一 个 顾客 的 
服务 时 间 是 一 个 指数 随机 变量 , 参数 为 和 简 等 待 时 间 的 分 布 函数 是 什么 ? 
.阿尔 文 在 进行 投 飞 标 游戏 , 飞 标 的 是 一 块 半径 为 ” 的 圆 板 . 记 XX 为 飞 标的 落 点 到 部 心 
的 距离 . 假定 落 点 在 裔 板 上 均匀 地 分 布 . 
(a) 求 出 X 的 概率 密度 函数 、 均值 和 方差 . 
(b) 靶 上 画 了 一 个 半径 为 t 的 同心 圆 . 车 X < t, 阿 文 尔 的 得 分 为 5S = 1/X, 其 他 情况 
S 二 0. 求 出 5S 的 分 布 函 数 . 5S 是 不 是 连续 随机 变量 ? 
. 设 Y 和 2 是 两 个 连续 随机 变量 . 随机 变量 X 以 概率 p 等 于 Y, 以 概率 1 一 p 等 于 2. 
(a) 证 明 X 的 概率 密度 函数 为 


fx(7) = pfy(z)+ (1—p)fz(z). 
(b) 求 出 双边 指数 随机 变量 的 分 布 函数 , 双边 指数 随机 变量 的 概率 密度 函数 为 


Ne 0 
fx(z) = 人 | 
(1 一 Dp)Xer>*， 若 zy>0 


EH 


? 


其 中 入 > 0,0<p < 1. 

混合 随机 变量 . 有 时 候 , 一 个 概率 模型 可 以 看 成 一 个 离散 随机 变量 Y 和 一 个 连续 随机 变 
量 2Z 的 混合 . 例如 , X 以 概率 p 取 Y 值 , 以 概率 1 一 p 取 2 值 . 这 样 , 称 X 为 混合 随机 
变量 , 利用 全 概率 定理 可 得 到 X 的 分 布 函数 
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py(5) 的 计算 是 类 似 的 . ] 与 概率 1 


Fx(x)= P(X < 7) 
=pP(Y < z)+( 


= pry (2 


通过 全 期 望 定理 , 可 求 得 X 的 期 望 人 


) 十 (1 


—P)P(Z < 7) 


—p)Fz(7). 


EIX] = pEIY] + (1 — Pp)E[Z]. 


阿尔 家 附近 有 一 个 公共 汽车 站 和 一 个 出 租 汽车 站 , 两 个 站 是 在 一 起 的 . 阿尔 出 门 的 


时 候 , 若 车 站 有 出 租车 等 着 (这 种 机 会 的 概率 为 2/3), 他 就 | 
车 , 来 出 租车 就 上 出 租车 , 来 公共 汽车 就 上 公共 汽车 , 先 到 先 上 . 
分 钟 内 到 达 , 等 竺 时间 是 在 (0, 10) 分 钟 之 间 均 


是 5 分 钟 . 求 阿尔 等 待 时 间 的 分 布 函数 和 期 望 值 . 


出租 车; 不 然 他 就 在 站 上 等 


已 知 出 租车 将 在 0~10 


名 分 布 的 . 而 等 待 


下 一 趟 公共 汽车 的 时 间 


解 ” 记 4 表示 当 阿尔 到 达 车 站 的 时 候 有 一 辆 出 租车 等 着 他 或 者 他 在 车 站 上 等 5 分 钟 以 


后 , 登 上 公共 汽车 . 当 阿 尔 必须 等 车 的 条 件 下 , 阿尔 登 上 公共 汽车 的 概率 为 
5 分 钟 后 到 达 ) = 1/2. 


P( 出 租车 在 


阿尔 的 等 车 时 间 X 是 一 个 混合 随机 变 旧 
P(A) = 


[a 


Be 
3 :3.9 6 


等 于 离散 随机 变量 Y( 相 当 于 或 者 出 租车 在 站 上 等 着 或 者 登 上 公 


[通过 下 列 计算 得 到 py(0) 的 值 : 


py(0) = P(Y = 0|4)= 


共 汽 车 ). Y 的 分 布 列 为 


P(A) 相对 应 的 随机 变 昌 


必须 等 车 , 但 5 分 钟 内 到 达 一 辆 出 租车 ) 的 概率 密度 函数 为 
| 
0， ”其 他 . 


这 样 , X 的 分 布 函数 Fx (z) = P(A)Fy 


(7)+ (1 — P(A))Fz(z) 


1 Zz 
6 5° 


ZZ( 相 应 于 到 达 车 站 以 后 ， 


下 式 给 出 


若 z< 0， 


车 0<zx<5， 


车 5<z. 


10.” 


3.3 


11. 


12. 


阿尔 的 平均 等 车 时 间 为 


SB 

6 15 6 2 12 

模拟 一 个 连续 随机 变量 .计算 机 有 一 个 产生 [0, 1] 上 均匀 分 布 的 随机 变量 UV 的 程序 . 利 

这 个 程序 可 以 产生 一 个 连续 随机 变量 X, 而 X 的 分 布 函数 为 下 (z). 设 U 产生 一 个 数 

u, 相应 X 的 取 值 x 为 满足 方程 F(z) = ww 的 解 . 为 简单 起 见 , 我 们 假定 分 布 函数 FP(z) 

在 S= {zl0<F(zx) <1} 上 严格 上 升 . 这 个 假定 条 件 可 以 保证 对 每 一 个 ve (0,1), 唯一 

也 对 应 一 个 x, 使 得 (x) = 

(a) 证 明 如 此 生成 的 X, 其 分 布 函数 的 确 为 给 定 的 F(x). 

(b) 利用 这 种 方法 模拟 产生 一 个 指数 随机 变量 , 其 参数 为 . 

(c) 如何 利用 这 种 方法 模拟 产生 一 个 离散 的 整数 值 随机 变量 ? 

解 

(a) 根据 产生 规则 , X 和 U 应 该 满足 关系 式 F(X) = U. 由 于 是 单调 的 , 对 每 一 个 x 
的 值 ， 


EIX] = P(A)E[Y] + (1 P(4))E[2] = 


X 和 zz 的 充 要 条 件 为 ”F(X) < F(zx). 
P(X < 1)=P(F(X) < F(x)) =P(U < F(x)) = F(x). 

上 式 的 最 后 一 个 等 式 是 利用 了 U 是 一 个 均匀 随机 变量 的 特性 . 这 样 X 的 分 布 函 数 

就 是 事先 确定 的 F(x). 
(b) 指数 分 布 函数 具有 形式 F(x) = 1 一 e-*?,x > 0. 为 生成 X, 首先 产生 一 个 单位 

间 (0,1) 上 的 均匀 随机 变量 U 的 一 个 值 u. 之 后 只 需 解 方 程 1 ~ e-xe = w. 这 个 方 

程 的 解 为 z= 一 In(1 一 w)/X."” 
(c) 设 忆 是 离散 的 取 整 数值 的 随机 变量 的 分 布 函 数 . 对 于 每 一 个 ve (0,1), 存在 唯 

的 一 个 整数 zw 满足 F(zw 一 1) <U<F(zw). 这 相当 于 定义 了 随机 变量 X 作为 

随机 变量 UV 的 一 个 函数 . 对 每 一 个 整数 ， 


xl 


P(X=k)=P(F(k—1)<U< Fk))= Fk)— Fk—1). 
如 此 构造 的 随机 变量 X 的 分 布 函数 就 是 事先 指定 的 F. 
节 ” 正 态 随机 变量 
设 X 和 YY 是 两 个 正 态 随机 变量 , 其 
(a) 求 P(X<1.5) 和 P(X < -1). 
(b) 求 (Y 一 1)/2 的 概率 密度 函数 . 
(c) 求 P(-l1&<Y<1). 


设 X 是 正 态 随机 变量 , 其 均值 为 0, 标准 差 为 ao. 利用 正 态 分 布 函数 表 计 算 P(X > ko) 
和 P(X| < ko), k= 1,2,3. 


均值 分 别 为 0 和 1, 方差 分 别 为 1 和 4. 


@ 与 x 相应 的 随机 变量 X 的 分 布 函数 为 F(z) = 1 一 eX?,x > 0. 一 一 译 者 注 
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13. 设 茶 个 城市 的 气温 为 正 态 随机 变量 , 其 均值 和 标准 差 均 为 10*C. 问 在 给 定 的 时 刻 气 温 不 


14.” 


3.4 


15. 


16. 


高 于 59°F 的 概率 有 多 大 ? a 
证 明正 态 概 率 密度 函数 的 归 一 化 性 质 . 提示 : 积分 1 e-” /2dz 的 值 等 于 积分 


. / e-” /2e-y /2dzdy 


的 平方 根 , 而 后 面 的 积分 可 以 通过 积分 变换 化 成 极 坐标 系 内 的 积分 . 
解 ”注意 下 面 的 等 


广 0 县 202 
——e”/’dr| = ® /dz 2 dy 
5 2NT 2x wo/ 
2 
i 记 em /2rdrdb 


此 处 , 第 三 个 等 式 是 将 积分 变 成 极 坐标 中 的 积分 的 结果 . 第 五 个 等 式 是 作 变 量 蔡 换 v = 
r2/2 的 结果 . 这 样 我 们 得 到 (因为 这 个 积分 是 非 负 的 ) 


三 所 全 :和 
_oo V2n 
现在 利用 变量 替换 _ = (z - 内 /ce, 得 到 


o0 oo 1 和 9 ce 1 六 
zr)dz = — eH) /Ge )dz = ——_e /2du=1. 
广 - fx (8) a 270 _oo V2 


节 ”多 个 随机 变量 的 联合 概率 密度 


半圆 周 {(z,2)|z2? 十 她 <7,y > 0} 内 按 均匀 分 布 随 机 地 取 一 个 点 (X,Y)( 这 里 + > 0， 
司 定 的 正 数 ). 

(iD 求 出 (X,Y) 的 联合 概率 密度 函数 . 
这 ) 求 出 Y 的 边缘 概率 密度 函数 , 并 利用 它 求 出 E[Y]. 
ii) 不 用 边缘 概率 密度 函数 , 利用 期 望 规则 直接 计算 E[Y]. 
考虑 下 面 的 布 丰 抛 针 问 题 ( 例 3.11) 的 变形 , 这 是 拉 普 拉 斯 研究 过 的 问题 . 在 坐标 平面 上 
画 上 格子 , 水 平 线 之 间 的 距离 为 a, 垂直 线 之 间 的 距离 为 现在 往 平面 上 丢 一 根 长 度 为 
1 的 针 , 不 妨 假 定 1 < ac 和 /17 <z 成 立 . 针 与 格子 相交 的 边 数 的 期 望 值 是 多 少 ? 针 与 至 少 
一 条 边 相 交 的 概率 是 多 少 ? 


问 夺 


习 
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17.” 利用 另 一 个 随机 变量 的 样本 估计 一 个 随机 变量 的 期 望 值 . 设 瑟 ,，… ,Yi 为 来 


自 概率 密度 


函数 i 的 一 个 样本 . 令 5 为 7 的 所 有 可 能 值 的 集合 , 即 S = jo )>0}. 令 XX 的 


概率 密度 函数 为 fx. 假定 对 一 切 y & 5, 均 有 fx(y) = 0. 考虑 随机 变量 


_ 1 
证 明 
E[2Z] = EIX] 
解 ” 我 们 有 
fx(Y)| fx(y) 
E 攻 | Vy) fy(y)dy = /vray = E[X] 
这 样 ， 


3.5 节 条 件 


18. 


19. 


20. 


21. 


设 X 是 一 个 随机 变量 , 其 概率 密度 函数 为 


今 A 

(a) 计算 EI[X]、 P(A4)、fxia(7x)、E[X|4]. 
(b) 令 Y=X?. 计算 E[Y] 和 var(Y). 
设 X 是 一 个 随机 变量 , 其 概率 密度 函数 为 


cz-2?， 若 1<z 芯 2， 
0， 其 他 . 


(a) 确定 常数 c. 


(b) 令 4={X>1.5}. 计算 P(4) 和 XX 在 4 发 生 的 条 件 下 的 条 件 概 率 密度 函数 . 


(c) 令 Y= X?. 计算 革 在 4 发 生 的 条 件 下 的 条 件 期 望 和 条 件 方差 . 


一 个 粗心 的 教授 错误 地 将 两 个 学 生 的 答疑 时 间 安 排 在 了 同一 时 刻 , 已 知 两 位 同学 的 答疑 
时 间 长 度 是 两 个 相互 独立 并 且 同 分 布 的 随机 变量 . 其 共同 的 分 布 是 指数 分 布 , 期 望 值 为 
30 分 钟 . 第 一 个 学 生 按 时 到 达 , 5 分 钟 以 后 , 第 二 个 学 生 也 到 达 . 从 第 一 个 学 生 到 达 起 直 


到 第 二 个 学 生 离 开 所 需 时 间 的 期 望 值 是 多 少 ? 


我 们 从 一 根 长 度 为 1 的 杆 开始 , 在 杆 上 按 均 匀 分 布 找 一 个 点 , 以 这 个 点 为 切断 点 , 将 杆 
为 两 半 . 我 们 保留 杆 的 左边 部 分 . 设 这 部 分 的 长 度 为 关 . 对 于 长 度 为 X 的 这 一 根 杆 ， 


复 这 一 切断 的 过 程 , 设 第 二 次 切断 后 保留 下 来 的 部 分 的 长 度 为 Y. 
(a) 求 出 和 和 Y 的 联合 概率 密度 函数 . 


汪 池 
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(b) 求 Y 的 边缘 概率 密度 函数 . 
(c) 利用 YY 的 边缘 概率 密度 函数 计算 E[ 站 ]. 
(d) 利用 关系 式 Y == 久 .(Y/X) 计算 E[Y]. 
22. 我 们 有 一 根 长 度 为 1 的 杆 , 利用 下 面 3 种 不 同 的 方法 将 杆 截 成 3 段 . 
(i) 利用 均匀 分 布 在 杆 上 随机 且 相 互 独立 地 取 两 个 点 , 在 这 两 个 点 处 将 杆 截 断 . 
(i) 首先 , 在 杆 上 按 均匀 分 布 随机 地 取 一 点 , 在 这 个 点 处 将 杆 截断 . 然后 将 右 端 这 一 截 如 

法 炮制 , 还 是 按 均匀 分 布 随机 地 找 一 点 , 在 这 个 点 处 将 这 一 截 再 分 成 两 段 . 

(过 ) 首先 , 在 杆 上 按 均 匀 分 布 随机 地 取 一 点 , 在 这 个 点 处 将 杆 截断 . 然后 将 较 长 的 那 一 截 

如 法 炮制 , 还 是 按 均 匀 分 布 随机 地 取 一 点 , 在 这 个 点 处 将 这 一 截 再 分 成 两 段 . 

对 这 三 种 方法 的 每 种 方法 , 分 别 求 出 截 成 小 段 后 杆 能 组 成 一 个 三 角形 的 概率 . 

23. 设 在 直角 坐标 系 中 三 个 点 (0,0)、(0,1)、(1,0) 组 成 一 个 三 角形 . 假定 (X,Y) 是 一 个 随 
机 点 的 坐标 , 这 个 随机 点 是 在 三 角形 上 均匀 分 布 的 . 
(a) 找 出 X 和 YY 的 联合 概率 密度 函数 . 

(b) 找 出 Y 的 边缘 概率 密度 函数 . 

(c) 找 出 X 的 在 给 定 Y 值 之 下 的 条 件 概率 密度 函数 . 

(d) 求 出 E[X|Y = 如 , 利用 全 期 望 定 理 求 出 E[X] 的 依赖 于 E[ 了 六] 的 表达 式 . 
(e) 利用 对 称 性 求 出 E[X] 

24. 设 在 直角 坐标 系 中 三 个 点 (0,0)、(1,0)、(0,2) 组 成 一 个 三 角形 . 假定 (X,Y) 是 一 个 随 
机 点 的 坐标 , 这 个 随机 点 是 在 三 角形 上 均匀 分 布 的 (与 题 23 不 同 , 此 题 中 的 X 和 了 是 
不 对 称 的 ). 按 题 23 中 的 方法 求 出 E[X] 和 E[Y]. 

25. 设 平面 上 一 个 随机 点 的 两 个 坐标 为 X 和 了. 它们 是 独立 同 分 布 的 正 态 随 机 变量 , 公 

望 为 0, 方差 为 c?. 已 知 这 个 点 离 原 点 的 距离 至 少 为 c. 求 X 和 了 的 条 件 联 合 概率 

26.” 设 1,… ,Xi 为 独立 随机 变量 序列 . 证 明 公 式 


or 


共 期 


|E 
ey 
密度 


n 


var (Tl? Xi;) var(Xi) ， 
TT, EX -II EX] ] 


2 


解 ”我 们 有 


2 -1 EX) 


=][ EX -11 (Ex) 


= |] (var(Xi) + (ELX)) = LL (ELXa) 
在 等 式 两 边 用 , 
[| (EX) 


除 , 便 得 到 所 需 的 结论 . 


习 题 169 
27 以 随机 事件 为 条 件 的 多 元 随机 变量 . 设 X 和 Y 为 联合 连续 随机 变量 , 其 联合 概率 密度 
函数 为 fx,y. 令 4 是 二 维 平面 的 一 个 子 集 , 又 令 C = {(X,Y) € 4A}, 事件 C 满足 
P(C) > 0. 定义 
fxyY(zYy) 天 
D/A ) 石 (iy) S A 
fx,Ylc (7T,Yy) 一 PO) 
0， 其 他 . 
(a) 证 明 fx,yjc 是 一 个 合格 的 联合 概率 密度 函数 . 
(b) 令 Ai(i = 1,… ,n) 为 二 维 平面 的 一 个 分 割 . 记 Ci; = {(X,Y) € 4i;}, 并 假定 对 每 
一 个 i, P(C;) > 0. 推导 下 列 形式 的 全 概率 定理 : 
fxy (zy) = > P(Oi)fxyic; (7,Y). 
i=1 
28.” 设 随机 变量 X 具有 双边 指数 概率 密度 函数 
入 入 了 2 > 0， 
A DNXe 7， 国 I 之 
(1 一 p)Me”， 车 x <0， 
其 中 入 和 p 是 参数 ,入 > 0, pe [0,1]. 利用 下 面 的 两 种 方法 求 X 的 期 望 和 方差 : 
(a) 利用 期 望 和 方差 的 定义 直接 计算 
(b) 利用 全 期 望 定理 进行 计算 . 
解 
(a) 
E[X| = a rfx(r)dz 
a oo 
=|/ 2(1 -phexdz+ rpMe dz 
Sp 0 
1 一 P ，2 
ES 
2p—1 
入 )》 
加 = 人 ed 
i z2(1— 和 zr [ 2 —Az 
D)Xe” dz 十 2 DNXe dz 
6 0 
_201-7) ,2p 
加 入 2 入 2 
2 
二 二 
利用 方差 的 定义 , 得 到 
之 2D 一 工 
Var(X)= 大 ( 东 ) 
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mT 


(b) 记 4= {Xz0}. 利用 X 的 概率 密度 函数 的 公式 , 很 快 得 到 P(A) =p. 在 4 发 4 
的 条 件 下 , X 的 条 件 分 布 为 指数 分 布 , 其 参数 为 和 . 同样 在 4? 发 生 的 条 件 下 , 随机 
变量 -X 也 具有 指数 分 布 , 参数 为 -和 . 由 此 可 得 


EIXIA] = >， EIXIA] = -3 
和 
EIX?|A] = EIX?|A] > 
利用 全 期 望 定理 得 到 
E[X] = P(A)E[X|A] + P(A°)E[X|A] 
一 卫 _ 工 一 2 
站 
_ 2p—1 
= 一 ， 
E[X?*] = P(A)E[X*|A] + P(A°)E[LX?*|A] 
2 2(1— 
加 本 p) 
2 
= 地 


最 后 , 得 到 


2 2p—1\? 
wr(X) -高 -( )， 


29.” 设 和 、Y、2 的 联合 概率 密度 函数 为 fx,y,z. 证 明 乘 法 规则 : 


fx,y,2(7,Yy,2) = fxly,z (Ty, 2)fy|z(y|z)fz(2)-. 


解 ” 利 用 条 件 概 率 密度 函数 的 定义 ， 


_ fx,y,2(7,Y,2) 


fxly,z (zl|y, 2) fyz(y z) 


和 
fy,z(y,2) = fylz(y|z)fz(2). 
将 两 个 关系 组 合 便 得 到 三 个 变量 的 概率 密度 函数 的 乘法 规则 . 
30.” 贝 塔 概 率 密度 函数 . 参数 为 a(> 0) 和 5(> 0) 的 贝塔 概率 密度 函数 为 


1 p01 


二 三 [0 en 


若 0<w<1, 


0， 其 他 . 


其 归 一 化 常数 为 
部 太 风 = 站 je 一同 81di 
0 


B(a, 6) 就 是 著名 的 贝塔 函数 ， 


习 题 171 
(a) 证 明 对 任何 m > 0, XX 的 mm 阶 矩 的 公式 为 
SX |= Bt,D) 
(b) 设 a 和 6 为 正 整 数 , 证 明 
(ae 一 DLL 一 IJ 
Blw 朋 = So 
因此 ， 
Wi a(a++1):.…(a+m—1) 
mle (a+B(a+B+l)...(a+B+m—1) 
(注意 : 按 惯 例 0! = 1. ) 
解 
(a) 我 们 有 
1 
CN —1 B 》 
E[X™]= Bi 而 可 T7211 — 72) dy = 2 
(b) 对 于 a = 1 或 8 = 1, 我 们 可 以 通过 直接 积分 验算 结果 . 现在 讨论 一 般 情况 . 记 


并,… ,Ya+tp 为 独立 同 分 布 的 随机 变量 ， 


A= {Yi < 


F ac 十 6 二 1 个 随机 变量 的 各 种 次 序 都 是 


<Y&Y ea Yo 


公共 分 布 为 [0, 1] 上 均匀 分 布 . 令 
< Yorp}. 


:等 可 能 的 , 我 们 有 


ce 
现在 考虑 事件 
B= {max{Y, ,Yo} <Y}, C={Y < min{Yor. ,Yare)}}. 
利用 全 概率 定理 , 得 到 
P(BnO= 人 PBN CY = Wr(Way 
= | Pemaxtyi, ,Yo} < y < min{Yar,.. ,Yete))ay 
= | Pemaxty, ,Yo} < WP < min{Yar,.. ,Yte))ay 


— y) dy. 


的 次 序 是 等 概率 的 , 这 样 


P(4IBnC) = 


由 于 给 定 B 和 CC 的 条 件 下 ,所 有 al 个 郊 ，…: 


,Ya 和 所 有 Bl 个 Yori,… ,Yarp 


1 
alB!. 
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现在 将 所 得 到 的 公式 代入 方程 


P(A) = P(BNOC)P(AIBNO) 


中 , 便 得 到 


1 1 sk 
(e+T6+DTI | (1 "dy, 
或 FE 
a B alp! 
/ y (一切 dy CE Es 
这 个 方程 可 写成 如 下 形式 : 
B(a+ B+) = CT 对 所 有 正 整数 a 和 成 立 


31.” 利 用 模拟 求 期 望 值 . 设 fx (x) 为 某 个 概率 密度 函数 , 它 满足 下 面 的 条 件 : a、b、c 为 三 个 
非 负数 (a < 5), jx(z) 在 区 间 [a,0] 外 为 0, 并 且 zx(z) < c 对 一 切 z 成 立 . 现在 以 如 下 


方式 产生 独立 随机 变量 Y(i = 1,2,… ,nn): 


(a,0)、 (b,0)、 (a 


o) 和 (b, c) 四 个 点 构成 从 


标 平 面 上 的 一 个 矩形 , 按 这 个 矩形 的 均匀 分 布 产生 一 个 随机 点 列 (Vi, Wi)(i = 1,… ,n)， 
如 果 Wi < Vifx(Wi) 令吉 =1, 否则 令 坟 =0. 令 
Nn 
证 明 EIX] i 
E[Z|] = i var[2] < pi 


特别 地 , 当 n 一 co 时 var(2) 一 0. 
解 ” 我 们 有 
BlZ] =P(Y; = 1) 
= P(Wi < Vifx( 


Vi)) 


b fvfx(v) 1 
a 1 -一 一 qd 
a 0 c(b a) 
b 


/ vfx(v)dv 


1 c(b— a) 
PIX] 
c(b—a) 


随机 变量 2 的 方差 为 


var(Z) = 


P(Y = 1)(1 — P(Y, 


D) 


nN 


于 0g(1-2p) =1-4p(1—p),p(1—p) < 1/4 
我 们 得 到 var(2) < 1/(4n). 


,从 而 P(Y; = 1)(1-P(Y = 1)) < 1/4, 


32.” 设 X 和 Y 为 联合 连续 随机 变量 , 其 联合 概率 密度 函数 为 fx,y. 设 对 任意 实数 子 集 4 和 
B, 事件 Xe A 和 事件 Ye B 相互 独立 . 证 明 X 和 YY 是 相互 独立 的 随机 变量 . 
解 ” 对 于 任意 两 个 实数 zx 和 y, 利用 事件 {X < zx} 和 {Y < yy} 的 相互 独立 性 , 得 到 


Fxy(7,y) = P(X < x,Y <y)=P(X < XP(Y < y)= FxC)PY(y). 


对 两 边 求 导数 , 得 


上 式 可 知 , 按 随机 变量 X 和 YY 相互 独立 之 定义 , 它们 是 相互 独立 的 . 
33.” 随 机 数 个 独立 随机 变量 的 和 .假如 你 愧 了 NN 个 商店 , 其 中 N 是 一 个 随机 变量 . 又 设 在 
第 i 个 商店 , 你 花 掉 的 钱 数 是 X;. 故 你 花 掉 的 总 钱 数 为 


了 二 Xl 十 XX2 十 … 十 XXN. 


我 们 假定 N 是 一 个 离散 随机 变量 , 其 分 布 列 为 已 知 , 而 X; 的 期 望 和 方差 相同 , 记 为 EI[X] 
和 var(X). 进一步 假定 , 所 有 的 Xi 以 及 N 都 是 相互 独立 的 . 证 明 


E[T|] = E[X]: E[N], var(T) = var(X)ELV]I + (E X])2var(N). 


解 ” 设 NN =i 此 时 你 只 进 了 i 家 商店 , 在 每 一 家 商店 , 你 花 钱 的 平均 值 为 EB[X]. 这 样 ， 
对 所 有 % 


EITIN = 1 = iE[X]. 


岗 在 利用 全 期 望 定理 , 得 到 


= >_ P(N = i)iE[IX] 
= E[X] > iP(N = 让 
= E[X]. ELIN] 


相似 地 , 由 Xi; 之 间 的 独立 性 可 知 , 如 果 i 关 7 则 EE[XiXj] = (E[X])>. 这样 代 的 二 阶 托 
为 
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= EX] DiP(N=1 [xX])” >i (i— 1)P(N=2) 


= ELX*]EIN] + (BLX])’ (EIN?] ~ E[N]) 
= var(X)EIN] + (ELX])*E[LN?]. 


了 的 方差 为 


var(T) = E[T*] — (E[T]Y 


( 
= var(X)EIN] + (E[X])” (ELIN’] - (EIN])’) 
= var(X)E[N] + (E[X])? var(N). 


注 : 在 第 4 章 中 我 们 将 以 更 抽象 的 方式 得 到 E[T] 和 var(7T) 的 公式 . 
3.6 市 ”连续 贝 叶 斯 准则 
34. 一 台 有 问题 的 硬币 浇铸 机 所 生产 的 人 硬币 是 有 缺陷 的 . 在 抛 括 便 币 的 试验 


X)EIN] + (BILX])? EIN?] — (ELX])? (BIN 
| 
Ll 


率 PP 是 一 个 随机 变量 . P 的 概率 密度 函数 是 


_ J pe?, pe 0 了 1 
人 全 其 他 . 


现在 从 这 批 产 品 中 抽取 一 枚 进行 抛 皂 人 硬 币 试验 , 进行 独立 重复 的 抛掷 . 
(a) 求 出 抛掷 硬币 的 时 候 正面 出 现 的 概率 . 
(b) 已 知 抛 括 一 枚 硬币 后 出 现 正面 , 求 P 的 条 件 概 率 密度 函数 . 


P 正面 出 现 的 概 


(c) 给 定 第 一 次 抛掷 的 结果 是 出 现 正 面 . 求 第 二 次 抛 绑 硬币 的 时 候 出 现 正面 的 条 件 概率 . 


35.” 设 X 和 了 为 相互 独立 的 连续 随机 变量 , 其 概率 密度 函数 分 别 为 fx 和 fy. 
(a) 证 明 jzlx(zlz) = 户 (z 一 zZ). 提示 : 与 给 定 X 的 条 件 下 2 的 分 布 函 


(b) 假设 X 和 了 的 分 布 为 指数 分 布 , 其 参数 为 和 求 出 X 在 给 定 2 = z 之 下 的 条 件 


概率 密度 函数 . 
(e) 假设 X 和 六 的 分 布 为 正 态 分 布 , 其 期 望 为 0, 方差 分 别 为 cz 和 03 
定 Z = > 之 下 的 条 件 概率 密度 函数 . 


解 
(a) 我 们 有 
P(Z < zX=7x)=P(X+Y < z|X= 727) 
=P(z+Y < zlX=7) 
= Pw 六 避 ) 
=P(Y <z— 72), 


令 F=X+Y. 
数 , 然后 求 导 . 


. 求 出 X 在 给 


其 中 第 三 个 等 式 是 由 于 X 和 了 的 独立 性 . 两 边 进行 微 商 , 可 得 所 需 


的 结果 . 


(b) 对 于 0< zx < zz, 我们 有 


fzlx(2|7)fx(7) _ fy(z— 7)fx(7) 


ole) a) ze) 
Ne 和 X(z 一 z) Xe 一 入 2e 一 ^z 
fz(2) fz(z) 


上 述 表 达 式 可 知 , 对 固定 的 z, 作为 z 的 函数 fxjz(z|z) 在 0<z<z 是 一 个 常 


数 , 而 在 区 间 [0, 2] 外 ,jxiz(zlz) 显然 为 0. 这 样 X 的 条 件 分 布 是 [0,z] 上 的 均匀 


分 布 , 即 X 的 条 件 概率 密度 函数 xlz(zlz) = 1/z, x € [0,z]. 
(c) 我 们 有 


jxlz(zlz) = 疡 (OO fz) Vano, V2rov 


我 们 将 注意 力 集中 在 指数 的 早上 , 其 负 部 按 x 配 成 平方 , 得 到 
(z— 72) | x? o2+o2 zo2 \? | 2 ] o2 
202 202 20203 02 十 o32 | 202 o2+o2) 
这 样 , X 的 条 件 密度 函数 具有 形式 


2 2 2 2 
Oz 十 ay ZO 
| 20203 Ce | 上 


其 中 c(z) 不 依赖 于 z, c(z) 在 概率 密度 函数 中 是 一 个 归 一 化 的 平衡 常数 ， 这样 


件 分 布 是 正 态 分 布 ， 均 信 


Oz 
E[X|Z = 可 = 2 十 o2 》 
方 关 多 一 从 
var[X|Z = 了] EY 


fy(z x rz)fx(z) 1 1 6— (2—2)?/209 1 ez2/2cz 


第 4 章 ”随机 变量 的 深入 内 容 


本 章 引入 一 些 更 深入 的 内 容 . 我 们 介绍 如 下 一 些 有 用 的 方法 : 

(a) 推导 出 关于 一 个 或 者 多 个 随机 变量 的 函数 的 分 布 ; 

(b) 处 理 独立 随机 变量 和 的 问题 , 包括 求 和 的 随机 变量 的 个 数 自身 也 是 随机 的 
情形 ; 

(c) 量化 两 个 随机 变量 之 间 的 相依 程度 . 

为 实现 这 些 目标 , 我 们 介绍 了 一 些 工具 , 包括 算 母 函数 和 卷 积 , 并 且 我 们 将 细 
化 对 条 件 期 望 概念 的 理解 . 

学 习 第 5~7 章 时 , 并 不 需要 本 章 内 容 作为 基础 , 因此 , 在 首次 阅读 本 书 时 可 将 
本 章 视 为 选读 内 容 . 然而 , 这 里 讨论 的 很 多 概念 和 方法 为 概率 论 和 随机 过 程 提 供 了 
更 深入 的 研究 背景 , 并 为 应 用 概率 论 和 随机 过 程 的 其 他 学 科 提 供 了 有 力 的 工具 . 但 
是 , 4.2 节 和 4.3 节 所 提 到 的 概念 , 是 第 8 章 和 第 9 章 中 学 习 统计 推断 的 准备 知识 . 


4.1 ”随机 变量 函数 的 概率 密度 函数 


本 节 考 虑 连续 随机 变量 X 的 函数 了 = g(X) 的 概率 密度 函数 ， | X 的 
概率 密度 函数 (PDF) 的 情况 下 , 我 们 计算 Y 的 PDF (也 称 为 导出 的 密度 函数 ). 主 
要 考虑 如 下 的 两 步 方 法 . 


计算 连续 随机 变量 X 的 函数 了 = 9g(X) 的 概率 密度 函数 (PDF) 
(1) 使 用 如 下 全 式 计算 Y 的 概率 函数 (CDF) Fy 


rw)=PoC) < de 


(2) 对 Fy 求 导 , 得 到 了 的 PDF: 


dry 


fy(y) = dy 


(YW). 


例 4.1 设 关 服从 [0,1] 上 的 均匀 分 布 , 令 Y = VX. 注意 , 对 任意 的 ye [0,1], 有 


Fy(y) =P(Y <Y)=P(VX <Y)=P(X <¥)=%. 


求 导 , 可 以 得 到 
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_ dFy 


fy(y) = a 


(y= =2y, 0<y<l1. 
dy dy 


在 区 间 [0,1 之 外 , 分 布 函数 B-(y) 是 个 常数 , 即 当 y < 0 时 Fy(y) =0, 而 当 y 之 1 
时 Fy(y) =1. 所 以 , 求 导 可 以 得 到 : 当 yg [0,1] 时 疡 (0 = 0. 
例 4.2 ” 庄 驶 悠 驾 车 匀速 从 波士顿 前 往 纽 约 , 两 地 距离 为 180 英里 , 速度 值 服从 
[30, 60] (单位 : 英里 / 小 时 ) 区 间 内 的 均匀 分 布 . 求 这 段 旅程 所 费时 间 的 PDF? 
设 X 是 速度 ,了 = 9(X) 是 这 段 旅 程 所 花费 的 时 间 : 
180 
X 


根据 两 步 法 , 首先 计算 Y 的 分 布 函数 ， 


1 1 
Py <W=P (RY)? (x). 
y 


Y 


X 


利用 X 的 均匀 分 布 性 质 , 即 
1/30， 若 30< x < 60, 
fx(7) = 
0， 其 他 ， 
以 及 相应 的 分 布 函数 
0， 若 x < 30， 
Fx(z)= 4 (zt—30)/30， 若 30<zx<60, 
1, 若 z>60 
因此 
Fy(y) = P (2 < x 
y 
si 
4 
0， 若 y < 180/60,， 
= 41- (= 一 a0) /30， 若 180/60 < vy < 180/30, 
1, 若 y > 180/30 
0， 若 y 芭 3， 


| 


2 一 6/y， 若 3<vy&6, 
1 若 y>6 
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( 见 图 4.1). 然后 , 对 上 式 进行 求 导 , 得 到 YY 的 概率 密度 函数 : 


0， 若 y 芝 3， 
fry(y)= 二 $6/ ， 若 3<y<6， 
0， 若 y>6. 


2 


图 4.1 例 4.2 中 Y= 180/X 的 概率 密度 函数 的 计算 过 程 示意 图 . 箭头 方向 表示 计算 步骤 


例 4.3 设 X 是 一 个 随机 变量 , 其 概率 密度 函数 已 知 . 现 求 Y = 9(X) = X? 的 概 
率 密度 函数 . 对 任意 的 y > 0， 


因此 , 对 上 式 进 行 微分 , 运用 复合 函数 求 导 方 法 ， 


4.1.1 ”线性 函数 


现在 我 们 重点 介绍 一 类 重要 和 特殊 的 情形 ; Y 是 X 的 线性 函数 . 如 图 4.2 中 
的 解释 , 从 直观 就 可 以 得 到 我 们 所 需 的 结论 . 
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图 4.2 用 XX 的 概率 密度 函数 来 表示 线性 函数 aX 十 b 的 概率 密度 函数 . 图 中 a = 2、5 = 5. 
为 了 直观 , 第 一 步 , 计算 aX 的 概率 密度 函数 .aX 的 值 域 比 X 的 值 域 大 , 倍数 为 
a. 所 以 , aX 的 概率 密度 函数 fax 是 将 X 的 概率 密度 函数 fx 在 xz 轴 的 方向 上 拉 
长 a 倍 . 但 是 , 为 了 使 得 aX 的 概率 密度 函数 fox 之 下 围 成 的 面积 是 1, 必须 将 fx 
纵 轴 下 拉 到 原来 的 1/a. 随机 变量 aX +b 与 aX 一 样 , 只 是 将 图 形 水 平平 移 b， 因 
此 , 我 们 首先 得 到 aX 的 概率 密度 函数 , 然后 水 平平 移 b. 最 后 得 到 的 就 是 随机 变量 
Y = aX 十 b 的 概率 密度 函数 . 写成 公式 , 就 是 


fy(y) = 襄公 (2) : 
如 果 a 是 负数 , 方法 是 一 样 的 , 只 是 先 将 X 的 概率 密度 函数 在 横 轴 进行 反射 , 得 
到 广 x. 然后 , 在 横 轴 和 纵 轴 上 分 别 乘 以 |a| 和 1/|al, 就 得 到 -lalX = aX 的 概率 密 
度 函 数 , 最 后 水 平平 移 b, 就 得 到 aX 十 b 的 概率 密度 函数 


3 


随机 变量 X 的 线性 函数 的 概率 密度 函数 . 
假设 X 是 连续 随机 变量 , 概率 密度 函数 为 fx, a 和 Db 是 实数 且 a 关 0, 如 果 


Y=aXi+tb, 


fy(y) = 上 Hx (! 二 )， 


现在 证 明 该 公式 , 我 们 首先 计算 了 的 分 布 函 数 , 然后 求 导 . 只 证 明 a > 0 的 情 
形 , a < 0 时 的 证 明 类 似 . 


则 


| 


对 上 述 等 式微 分 , 运用 复合 函数 求 导 方 法 , 可 得 
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y= = (Se). 


a 


例 4.4 (指数 随机 变量 的 线性 函数 ) ”假设 随机 变量 X 服从 参数 为 和 的 指数 分 布 ， 
Xe-X， 若 zy>0， 
fx(7) = | 


0， 其 他， 
其 中 入 是 正 的 参数 . 定义 Y = aX 十 b, 则 


入 二 
( ) od 石 (y b)/a 之 0， 
YN\V) 二 
其 


他 . 


注意 , 当 5=0 且 a>0 时 YY 仍然 服从 指数 分 布 , 参数 为 和 Ma. -并 而 言 , Y 可 能 不 
是 指数 的 . 比如 , 当 a <0 且 b=0 时 YY 的 取 值 空间 在 负 实 向 
例 4.5 ( 正 态 随机 变量 的 线性 函数 ) ”假设 随机 变量 X 服从 均值 为 人 方差 为 o? 的 
正 态 分 布 , 相应 的 概率 密度 函数 为 


fx (0) = -二 -ee 和 /2 
270 


定义 站 = aX 十 b, 其 中 和 5 是 实数 且 a 关 0, 则 


ec 一 (2 一 四 2/2c? 
lal V2re 


1 _ (yb-ap)? 


二 2a<0 
V2nlalo 


这 是 均值 为 or/ 十 方差 为 a2o? 的 正 态 分 布 的 概率 密度 函数 , 所 以 随机 变量 Y 是 
正 态 的 . 
4.1.2 ”单调 函数 
线性 函数 的 概率 密度 函数 的 计算 方法 和 公式 可 以 推广 到 9 是 单调 函数 的 情 
形 . 假设 X 是 连续 随机 变量 , 且 取 值 空间 在 一 个 给 定 的 区 间 了 里, 即 当 xz 4 了 日 
fx(z) = 0. 现在 考虑 随机 变量 了 Y = g(X), 且 在 区 间 I 上 函数 9 是 严格 单调 的 , 即 
以 下 两 种 情形 之 一 : 
(a) 严格 单调 递增 : 对 任意 的 z,x’e 了 满足 x < zx, 则 g(x) < g(x”) 
(b) 严格 单调 递减 ， 对 任意 的 z,z' ez 满足 x < x, 则 g(x) > g(x) 
进一步 地 , 假设 9 是 可 微 的 . 它 的 导数 在 递增 情形 时 是 非 负 的 , 在 递减 情形 时 
是 非 正 的 . 


工 


4.1 随机 变 
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严格 单调 函数 的 一 个 重 


EE 要 性 质 是 


Hz 


它 是 “可 逆 的 ” 


, 也 就 是 说 , 存在 函数 h, 称 为 


9 的 逆 , 使 得 对 任意 的 ze 过 有 


=9g(z) 当 且 仪 当 z= h(y). 


比如 说 , 例 4.2 中 考虑 的 函数 g(x) = 180/z 的 逆 就 是 h(y) = 180/y. 这 是 因为 ， 


y 二 180/zx 当 且 仅 当 > = 180/vy. 其 他 例子 , 比如 
gz) = azr+b, h(y)= 、 


是 实数 , 且 a 关 0. 可 道 函数 的 例子 还 有 


其 中 a 和 5。 


HE 中 a 是 非 零 实数 


对 于 严格 单调 函数 g, 使 


用 如 下 方便 的 公式 来 计算 Y 


= 9(X) 的 概率 密度 函数 . 


dh 


A Pe)| 


fr(y) = 和 


卖 随 机 变量 X 的 严格 单调 函数 Y = 9(X) 的 概率 密度 函数 计算 公式 
”假设 g 是 严 焰 间 调 函 数 , 其 逆 函 数 h 满足 : 对 和 的 取 值 空间 内 任意 一 点 x， 
y= 二 g(x) 当 且 仅 当 x= h(y)， 


且 函 数 及 是 可 微 的 , 则 Y 在 支撑 集 {ylfy(y) > 0} 内 的 概率 密度 函数 是 


现在 证 明 上 式 . 假设 g 是 严格 递增 函数 . 则 


Fy(y) = P(g(X) & y= P(X < h(y))= 


Fx(h(Y)), 


中 第 二 个 等 式 运用 了 函数 g 的 严格 递增 性 ( 见 图 4.3). 对 上 式 进行 微分 , 并 运用 
复合 函数 微分 公式 , 我 们 可 以 得 到 
dh 
fy(W) = (0) = fx(h() PW). 
因为 g 是 严格 递增 时 , 函数 也 是 严格 递增 的 , 所 以 它 的 导数 是 非 负 的 : 
dh dh 
PW) = | 


这 样 , 就 验证 了 单调 递增 函 
程 是 类 似 的 : 


数 g 的 概率 密度 函数 公式 . 当 9 是 单调 递减 时 , 推导 


六 
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1 所 攻 
事件 {XX 所 A)} 事件 {X 宇 1)} 


图 4.3 计算 概率 P(g(X) < y). 当 9 是 严格 递增 的 ( 左 图 ), 事件 {g(X) < y} 与 事件 {X < 
h(y)} 是 一 样 的 . 当 9 是 严格 递减 的 ( 右 图 ), 事件 {g(X) < vy} 与 事件 {X > h(vy)} 
是 一 样 的 


汪 


例 4.2 ( 续 ) ”我 们 将 上 述 公 式 , 应 用 于 例 4.2. 在 区 间 z es [30, 60] 内 , h(y) = 180/y， 
所 以 


1 dh 180 
jxh) 一 训 | 革 加- 宫 
所 以 , 当 ye 人 ,6] 时 , 运用 概率 密度 函数 计算 公式 可 以 得 到 
dh 1 180 6 


扩 ) 一 Jx(h) | 时 出 -= 闸 -安吉 


这 个 结果 与 例 4.2 中 得 到 的 结论 是 一 样 的 . 
例 4.6 定义 和 =9(X) 其 中 X 服从 (0,1] 区 间 的 均匀 分 布 . 在 这 个 区 间 是 
9 是 严格 递增 函数 , 它 的 逆 函 数 是 h(y) = Vy. 对 任意 的 ye (0,1], 有 


HE 


iD -1 |- 
所 以 
若 vy € (0,1]，, 
0， 其 他 . 


最 后 值得 注意 的 是 , 若 用 随机 变量 落 入 小 区 间 的 概率 来 解释 概率 密度 函数 的 意 
义 , 概率 密度 函数 计算 公式 变 得 十 分 直观 ( 见 图 4.4 的 解释 ). 
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2 术 


斜率 天 多 (人 


dz 


[wy 十 全 


[z+01| 
图 4.4 对 9 是 严格 递增 函数 时 ，9(X) 的 概率 密度 函数 公式 的 解释 ， 考 虑 区 间 [z,z 十 51]， 
其 中 51 是 非常 小 的 正 数 . 在 映射 9 下 , 该 区 间 映 射 到 另 一 个 区 间 [y,y 十 62]， 因 为 
(dg/dz)j(z) 是 9 在 点 z 处 的 斜率 , 所 以 


02 dg 

De Ix (0 
St 
62 dy 


注意 , 事件 {zx < 六 < xz 十 矶 } 与 事件 {y < YY < y 十 62} 是 同一 事件 . 所 以 


fy(yoo TT Py <Y <Yy+6)=P(r<X SI) ST fx(r)d. 


将 91 移 到 公式 的 左 端 , 并 利用 比率 52/61 的 结论 , 就 可 以 得 到 


rE) = 产 (四 
也 可 以 将 5 移 到 公式 的 右 端 , 并 利用 比率 5/62 的 结论 ， 就 可 以 得 到 
dh 
Fy) = fx (kW) PW) 


4.1.3 ”两 个 随机 变量 的 函数 

和 一 个 随机 变量 的 情形 一 样 , 我 们 采用 两 步 法 : 先 计 算 分 布 函 数 , 然后 微分 得 
例 4.7 在 两 个 射手 射击 同一 目标 的 游戏 中 , 假定 每 个 射手 的 弹 着 点 与 目标 中 心 的 
距离 服从 [0,1] 上 的 均匀 分 布 , 而 且 彼此 相互 独立 . 问 失 败 者 的 弹 着 点 离 目 标 中 心 
距离 的 概率 密度 函数 是 什么 ? 

设 X 和 了 分 别 是 第 一 个 和 第 二 个 射手 的 弹 着 点 离 目标 中 心 的 距 
失败 者 的 弹 着 点 离 目标 中 心 的 距离 , 则 


Z = max{X,Y}. 


. 令 Z 是 


型 


我 们 知道 X 和 YY 都 服从 [0,1] 上 的 均匀 分 布 , 所 以 对 任意 的 xs [0,1], 我 们 有 
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P(X <z)=P(Y <2)=2Z. 


利用 X 和 YY 的 独立 性 , 对 任意 的 > se [0,1], 我 们 有 
Fz(z)= P(Z < 2%) 
=P(X<2z,Y <2%) 
= P(X <2%)P(Y < 2) 
<: 
经 过 微分 可 得 


例 4.8 假设 随机 变量 X 和 YY 都 服从 区 间 [0,1] 的 均匀 分 布 , 而 且 彼 此 相互 独立 . 
问 随机 变量 2 = Y/X 的 概率 密度 函数 是 什么 ? 

我 们 还 是 根据 两 步 法 先 计算 2 的 分 布 函数 , 然后 微分 得 出 它 的 概率 密度 函数 . 
在 计算 的 时 候 要 对 两 种 情形 ( 即 0 < z < 1 和 z>1) 分 别处 理 . 如 图 4.5 所 示 , 我 
们 可 以 得 到 


z/2, 看 z € [0,1]， 
Fz(z)=P (* < = 二 41 一 1/(2z)， 若 z>1， 
0, 其 他 . 
将 Fz(z) 微分 , 可 得 
1/2, 若 ze [0,1]， 
fz(2) 二 91/(2z22)， 大 zz>1， 
0， 其 他 . 


图 4.5 计算 例 4.8 中 2Z = Y/X 的 概率 密度 函数 . 概率 P(Y/X < z) 等 于 单位 正方 形 内 阴影 
部 分 的 面积 . 左 图 处 理 0 < z < 1 情形 下 的 概率 , 右 图 处 理 z > 1 情形 下 的 概率 
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例 4.9 ”罗密欧 和 朱丽叶 定期 约会 , 他 们 每 个 人 每 次 到 达 约 会 地 点 时 都 会 离 约定 的 
时 间 有 延迟 , 而 且 他 们 的 延迟 时 间 是 彼此 相互 独立 的 . 假定 延迟 的 时 间 都 服从 指数 
分 布 , 参数 为 和 那么 他 们 到 达 约 会 地 点 的 时 间 差 具有 什么 样 的 概率 密度 函数 ? 

记 X 和 YY 分 别 是 罗密欧 和 朱丽叶 约会 时 到 达 的 时 间 (假定 约会 时 刻 为 0). 我 
们 的 目标 是 计算 2 = XX 一 Y 的 概率 密度 函数 . 由 假设 可 知 X 和 YY 都 是 服从 参数 
为 和 的 指数 分 布 . 我 们 先 计算 分 布 函数 Fz(z), 分 两 种 情况 z > 0 和 > < 0 来 讨论 ， 
见 图 4.6. 


y 直线 x 一 y=& 


图 4.6 计算 例 49 中 2Z=X-Y 的 分 布 函 数 为 了 求 出 概率 P(X 一 Y > z), 必须 对 联合 概 
率 密度 函数 fx,y(z,y) 进行 积分 , 积分 区 域 如 图 中 的 阴影 部 分 所 示 . 左 图 处 理 z > 0 

的 情形 , 右 图 处 理 > < 0 的 | 

当 >z>0( 见 图 4.6 的 左 图 ) 
Fz(z)= P(X—-Y<z)=1-—-P(X—Y>2%) 


一 1- |/ a | fxy (x,y)dzr 
0 2 十 9 

三 江 三 / Me Ndy y Me xzdz 
0 Zz 二 y 


二 1-|/ Me Ne Ns+ty) dy 
0 


二 1 一 | Xe-2^ydy/ 
0 


1 
Pa He pe 


当 > < 0, 我 们 可 以 使 用 类 似 的 计算 方法 , 但 是 也 可 以 利用 对 称 性 . 实际 上 ， 
对 称 性 可 知 , 随机 变量 2 = 一 了 与 -2Z=Y 一 的 分 布 是 相同 的 . 所 以 
Fz(z)=P(Z &z)=P(-Z22 -2)=P(Z> -2)=1- Fz(-2). 


当 z <0 时 ,一 z >0, 所 以 可 以 使 用 已 经 推导 出 来 的 公式 得 到 


F(z)=1 =1- (1-¥ a 4 


于 
RR 
NAN 
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综合 z>0 和 >z<0 两 种 情况 , 我 们 得 到 


对 分 布 函数 进行 微分 , 可 以 得 到 概率 密度 函数 , 即 


| 若 z>0， 


入 二 
De 石 zx< 0. 


这 就 是 著名 的 双边 指数 概率 密度 函数 , 也 称 为 拉 普 拉 斯 概率 密度 函数 . 


4.1.4 独立 随机 变量 和 一 卷 积 
设 X 和 了 是 两 个 独立 的 随机 变量 , 考虑 它们 的 和 2 = X 二 TY 的 分 布 . 首先 ， 
我 们 推导 当 X 和 YY 都 是 离散 的 情况 下 2 的 分 布 列 . 
设 针 和 YY 是 仅 取 整数 值 的 独立 随机 变量 , 它们 的 分 布 列 分 别 为 px 和 py. 则 
对 于 任意 整数 z， 


| 


pz(2) = P(X+Y=2) 


{(2,9)|z2+y=z} 
= >_P(X=7,Y=z—7) 


一 》 px(z)pr(z — 7). 


得 到 的 分 布 列 pz 称 为 X 和 YY 的 分 布 列 的 卷 积 . 关于 卷 积 的 直观 意义 见 图 4.7 的 
说 明 . 


4.7 针 十 Y==3 时 对 应 的 概率 pz(3) 是 所 有 满足 x 十 y = 3 的 (x,y) 出 现 的 概率 之 和 ， 
中 标 出 了 这 些 点 . 这 类 点 的 概率 计算 公式 如 下 : 


px,Y (7,3— 7)= px(z)pY(3— 7) 
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现在 我 们 假设 XX 和 


HY 为 独立 的 连续 随机 变量 , 它们 的 概率 密度 函数 分 别 为 


fx 和 fy. 我 们 希望 求 出 


上 2 = XX 十 了 的 概率 密度 函数 , 为 此 , 我 们 首先 求 出 X 和 


2 的 联合 概率 密度 函数 , 然后 通过 积分 求 出 2Z 的 概率 密度 函数 . 
首先 注意 到 ， 
P(Z < z|X=7x)= P(X+Y <z|X=7) 
= P(r+Y <z|X= 72) 
=P(z+Y <2%) 
= P(Y < 2z— 27), 
第 三 个 等 号 由 X 和 YY 的 独立 性 所 致 . 两 边 同时 取 > 的 微分 , 可 知 fzix(z|z) = 
户 (z 一 z). 利用 乘法 法 则 , 有 
fx,2(7,2) = fx(z)fzlx(z|z) = fx(z)fy(z— 7), 


最 后 由 上 式 可 推 得 


一 fx,z(z, 2)dz = 下 fx(z)fy(z— 2)dz 


这 个 公式 和 离散 情况 下 的 公式 是 完全 类 似 的 , 只 是 用 积分 替代 了 求 和 , 月 
函数 代替 了 分 布 列 . 图 4.8 给 出 了 这 个 公式 的 一 个 直观 理解 . 


概率 密度 


普 症 


4.8 


NAN 


区 


连续 随机 变量 情形 下 卷 积 公式 的 说 明 (对 比 
域 所 代表 的 事件 发 生 的 概率 就 是 P(z < XX+Y z+0) 守 


fz(2)6 = 


图 4.7). 对 非常 小 的 5 > 0, 图 


fz(z)6. 


ea eg 六 
二 十 ， 


P(z< X+Y <z+d) 


my 
-人 Je 


</ fx (x)fy(z— x)odz. 


ydydz 


去 掉 上 式 左右 


全 


边 的 5 即 得 所 求 公式 
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例 4.10 ” 设 随 机 变量 X 和 相互 独立 并 且 都 服从 区 间 [0,1] 上 的 均匀 分 布 . 按 独 
立 随机 变量 之 和 的 密度 公式 , 变量 2 = X+Y 的 概率 密度 函数 为 


a I fx(z)fy(z— 2)dz 


被 积 函 数 fx(z)fy(z 一 x) 当 0<x<s1l 且 0< zx<1 时 是 非 零 的 (实际 上 等 于 
1). 将 这 两 个 不 等 式 联合 起 来 , 被 积 函 数 当 max{0,z 一 1} < x < min{1,z} 时 非 零 . 
因此 ， 


fz(2) 


_ Jmin{1,z2} — max{0,z—1}, 0<z<2, 
Lo, 其 他 情况 . 
如 图 4.9 所 示 ,， fz(z) 的 图 像 像 个 三 角形 的 尖 


“下面 我 们 给 出 卷 积 公式 的 一 个 重要 的 应 


]. 

例 4.11 (相互 独立 正 态 随 机 变量 之 和 的 分 布 ) 0 和 > 
设 随 机 变量 和 YY 相互 独立 ， 服从 均值 分 别 图 4.9 两 个 独立 的 [0,1] 上 均匀 分 布 
为 ps 和 lm、 方 差分 别 为 os 和 oy 的 正 态 分 随机 变量 的 和 的 概率 密度 函数 
布 . 定义 了 = 筷 十 了 . 卷 积 公式 , 可 得 


rh CH 1 人 
fz(z) = 人 exp ( Do2 a exp 203 dz. 


上 式 中 的 积分 有 明确 的 表达 式 , 但 是 细节 比较 麻烦 , 所 以 在 此 省 略 . 最 后 的 结论 是 


RN) 
exp ( 2 Ly) ) 
2r(a2 + 02) 2(02 十 oz) 


jz(z) = 


这 是 均值 为 Wu + jw 方差 为 02 十 o2 的 正 态 分 布 的 概率 密度 函数 . Cn 
论 : 两 个 独立 正 态 随机 变量 之 和 仍然 是 正 态 的 . 正 态 随机 变量 的 线性 函数 仍然 是 
态 的 (参见 例 4.5), 可 以 推出 对 于 任何 非 零 常 数 a 和 5b,aX+bY 也 是 正 态 的 . 4.4 
节 里 会 使 用 矩 母 函数 的 方法 来 讨论 本 题 的 派生 问题 . 
例 4.12 (两 独立 随机 变量 之 差 )” 卷 积 公式 也 可 以 用 于 计算 X -YY 的 概率 密度 函 
数 . 其 中 X 和 Y 是 相互 独立 的 . 方法 是 将 X 一 Y 看 成 是 X 与 ~Y 的 和 . 注意 ， 
一 Y 的 概率 密度 函数 是 f_-y(y) = 序 (--), 从 而 


fx_y(z 国人 jxD) 广 > -sae= fx(7z)fy(r — z)dx. 


现在 设 X 和 Y 相互 独立 , 且 都 服从 参数 为 A 的 指数 分 布 ( 见 例 4.9). 对 任 
z > 0, 注意 到 只 有 当 x > z 时 , fy(z - 2) 才 非 零 , 所 以 


澳 
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fx-Yr(z) = A fx(r)fy(r — 2z)dzr 
加 上 Xe 一 Xz Xe 一 X(z 一 2)d7z 


至 入 2e 和 z e 一 2XZzd7 
之 


1 
二 入 2 Mz 一 2 入 z 
© aXe 


这 与 例 4.9 得 到 的 结论 是 一 致 的 . 当 > < 0 时 , 可 以 使 用 相同 的 方法 , 只 需 注意 到 
fx-r(2)= fy_-x(2)= f_(x-Y)(2) = fx-r(-—2). 

上 式 中 第 一 个 等 式 是 因为 X 与 Y 同 分 布 , 因而 XX 一 Y 的 分 布 具 有 对 称 性 . 

使 用 卷 积 公 式 时 , 最 关键 的 步骤 是 要 确定 正确 的 积分 限 . 但 是 这 通常 是 繁琐 且 

易 错 的 , 但 是 可 以 利用 下 面 将 要 介绍 的 图 像 法 加 以 避免 . 

4.1.5 “ 卷 积 的 图 像 计 算法 


我 们 使 用 一 个 哑 变 量 t 作为 本 节 涉 及 的 不 同 函数 的 自 变 量 , 见 图 4.10. 考虑 两 
个 概率 密度 函数 fx(t) 和 记 (). 给 定 z 一 个 值 , 计算 卷 积 


tz)=/ eng 


到 


图 像 表达 包括 如 下 步 又 . 


图 4.10” 卷 积 计 算 的 描述 . 对 于 考虑 中 的 z 的 值 , fz(z) 与 最 后 一 幅 图 中 所 示 的 函数 的 


积分 相等 
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(a) 画 出 f(z 一 缮 关于 


全 类 似 , 除 
移 ; 


了 一 点 不 同 ; 
如 果 z < 0, 向 左 平移 . 

(b) 将 fx(t) 和 方 (z 一 沪 的 图 
(c) 通过 计算 乘积 函数 的 积分 得 到 fz 
通过 变化 z 的 量 , 即 平移 的 量 , 就 可 


它 是 先 “ 翻 转 ” 多 


的 函数 图 像 . 这 个 图 像 和 函数 fy() 
Z H 


像 放 在 彼此 


的 图 像 的 形状 完 


果 z > 0, 向 右 平 


然后 平移 一 个 > 的 量 . 


TI 


上 面 , 制作 
(z) 的 值 . 


出 它们 的 乘积 


得 到 取 任 何 z 时 


的 fz(2). 


4.2 ” 协 方 差 和 相关 


本 节 介 


绍 如 何 量化 两 个 随机 变革 


于 在 第 8 章 和 第 9 章 的 估计 方法 . 
X 和 了 的 协 方差 记 为 cov(X,Y), 其 


一 


cov(X,Y) 


量 之 间 关 系 的 大 小 和 方向 . 该 内 容 非 常 重要 , ; 


一 了 [(X 一 


区 


定义 如 下 : 
EIX])(Y — E[Y])]. 


当 cov(X,Y) = 0 时 , 我 们 说 X 和 YY 是 不 相关 的 . 
粗略 地 说 , 一 个 正 或 者 负 的 协 方差 表示 在 一 个 试验 中 的 一 E[X] 和 YY 一 E[Y 
的 值 “ 趋 向 ”有 相同 或 者 相反 的 符号 ( 见 图 4.11). 因此 , 协 方 差 的 符号 提供 了 一 


X 和 了 之 间 关 系 的 重要 定量 


y 


引 标 . 


a 


(a) 


_ 


(b) 


中 cov(X,Y) 是 


协 方 差 的 另 一 种 表达 为 


cov(X,Y) 
通过 简单 运算 就 可 证 明 这 个 
的 一 些 性 质 : 对 任意 的 随机 变量 X、Y、 


正 值 ， 


= E[XY] 
等 式 . 从 协 方差 的 定义 出 发 , 我 们 还 可 以 推导 


图 4.11 正 相 关 随 机 变量 和 负 相 关 随 机 变量 的 例子 . 这 里 (X,Y) 在 图 中 所 示 的 椭圆 中 均匀 分 
布 . 在 情况 (a) 


是 负 人 


在 情况 (b) 中 


— EIXIEIY], 


出 协 方差 


2Z, 以 及 任意 实数 a 入 


cov(X,X) = var(X), 


cov(X,aY +0b)= a: 


cov(X,Y), 


cov(X,Y+2)= cov(X, 了 了 ) 十 cov(X,2). 
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要 提醒 注意 的 是 下 面 的 事实 : 如 果 X 和 是 相互 独立 的 , 则 ELXY] = E[X]E[Y]， 
即 有 cov(X,Y) = 0. 因此 , 如 果 X 和 了 是 相互 独立 的 , 它们 是 不 相关 的 . 但 是 ， 
命题 不 成 立 , 见 下 例 . 

例 4.13 设 随机 变量 对 (X,Y) 分 别 以 1/4 的 概率 取 值 于 (1,0)、(0,1)、( 一 1,0)、(0,， 
一 1)( 见 图 4.12). 因此 , X 和 YY 的 边缘 分 布 列 都 关于 0 对 称 , 且 E[X] = E[Y] = 0. 
更 进一步 , 对 (x,y) 可 能 取 到 的 任何 值 , x 和 y 中 总 有 一 个 为 0, 此 时 XY=0 且 
EIXY] = 0. 因此 


Eg 


cov(X,Y) = E[XY] ~ E[X]E[Y] = 0， 


即 X 和 了 不 相关 . 但 是 , X 和 Y 不 是 独立 的 . 因为 , 例如 X 取 非 零 值 时 就 要 求 了 
取 零 值 

这 个 例子 可 以 推广 出 一 个 一 般 的 结论 
假设 X 和 了 满足 


E[X|Y = 中 = E[X] 对 任意 的 y 成 立 ， 


则 如 果 X 和 了 是 离散 变量 时 , 利用 全 期 望 
定理 可 以 得 到 


一 之 E[XIY = 
图 4.12 例 4.13 中 X 和 Y 的 联合 分 

= E[X] >》 ypy (y) = EIX]E[Y), 布 列 ， 图 中 所 示 的 四 个 点 中 每 
个 点 的 出 现 概率 都 为 1/4， 这 


这 样 X 和 是 不 相关 的 . 在 连续 的 情形 下 ， ee 
这 个 结论 仍然 成 立 . 
两 个 方差 非 零 的 随机 变量 X 和 了 的 相关 系数 PLX,Y) 定义 如 下 : 


cov(X,Y) 


= var(X)var(Y) 


( 当 关 和 YY 在 上 下 文中 很 明显 时 可 使 用 简化 记号 p.) 它 可 视 为 协 方差 cov(X,Y) 
的 标准 化 . 且 事实 上 , 可 证 明 p 取 值 于 -1 到 1 之 间 ( 见 章 末 习 题 ). 

如 果 p > 0(p<0), 则 关 一 E[X] 和 YY 一 EIY] 的 值 趋向 同 号 ( 反 号 ), 且 |p| 的 大 
小 反映 了 趋向 程度 的 标准 度量 大 小 . 事实 上 , 总 可 以 假定 X 和 Y 有 正 的 方差 , 在 
此 种 情况 下 , 可 以 证 明 p=1 (p= 一 1) 当 且 仅 当 存在 一 个 正 的 ( 负 的 ) 常数 c, 使 得 


Y — ElY] = c(X -EIX]) 


( 见 章 末 习 题 ). 下 面 的 例子 部 分 地 解释 了 这 个 性 质 . 
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例 4.14 ”考虑 一 个 硬币 的 ”次 独立 的 抛掷 , 其 中 正面 朝 上 的 概率 是 p. 设 关 和 YY 
分 别 是 正面 朝 上 和 反面 朝 上 的 次 数 , 现在 让 我 们 来 看 一 下 X 和 了 的 相关 系数 . 这 
里 , 我 们 总 有 关 十 Y=n 且 EI[X] 十 E[Y] =n. 因此 


XxX-EX)=-(Y -EY)). 


我 们 将 计算 X 和 了 的 相关 系数 , 证 明 它 确实 等 于 -1. 


我 们 有 
cov(X,Y) = EC — EIX)(Y — EIY])| 
= -P|(X - EX])’| 
= —var(X). 
因此 , 相关 系数 为 
二 cov(X,Y) —var(X) a 
A\ ) Vvar(X)var(Y) Vvar(X)var(X) 
随机 变量 和 的 方差 


协 方差 可 以 用 于 计算 多 个 随机 变量 (不 必 独 立 ) 之 和 的 方差 . 特别 地 , 设 随机 
变量 XZ,… ,Xn 共有 有 限 的 方差 , 则 


var(X1 + X2) = var(Xi1) + var(X2) 十 2cov(X1,Xo2)， 


Var (> | 加 >》 var(X) 十 >》 cov(Xi, X;). 


4 i=1 {(i,7)li 尖 让 
上 述 公式 可 以 如 下 推导 : 简 记 X; = X; 一 E[X:;], 
n Nn 2 
i=1 i=1 
sD.4 
i=1 j=1 
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= EL > ElXiX) 


和 =1 {G7)1 允 分 
= 》 va(Xi)+ >》 cov(CX 
和 1 {(G.7)1 分 


下 面 举 一 个 例子 来 运用 这 个 公式 . 

例 4.15 考虑 2.5 节 中 讨论 的 帽子 问题 .有 个 人 将 帽子 扔 进 一 个 盒子 , 然后 每 人 
随机 地 选 一 顶 帽 子 . 设 X 是 拿 到 自己 帽子 的 人 数 , 现在 计算 X 的 方差 . 设 X; 表 
示 第 i 个 人 是 否 拿 到 自己 帽子 的 随机 变量 , 即 X; = 1, 表示 拿 到 了 自己 的 帽子 , 否 
则 X; = 0. 此 时 ， 


入 = 庆生 :二 


注意 , Xi 服从 p=P(z = 1) = - 的 伯 努 利 分 布 , 我 们 有 


E[X;] = A ( - 加 . 


LA nN 
当 i 关 j 时 
cov(Xi, Xi) = ELXiXj] — ELXJELX] 

= P(Xi =1 有 Xj = 一 二 :二 

=P(Xi = DP(X; = 1Xi=) -三 

1 1 1 

nn nl 72 

1 
n2(n—1) 

所 以 


var(X)= var 0 | 


= OvalXi)+ >》 cov(Xi,X,) 
i 计 1 {6,7)|i 放 让 
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eX 


协 方 差 和 相关 


。 如果 cov(X,Y) = 0, 则 称 X 和 了 不 相关 . 
。 如果 X 和 了 是 独立 的 , 则 它们 不 相关 . 反之 不 总 成 立 . 


和 了 的 协 方差 公式 如 下 : 


cov(X,Y)=E [x — EI[X])(Y ~ E[Y])| = EI[XY] ~ EIX]EIY]. 


。 两 变量 和 的 方差 公式 : 
var(X 十 Y) = var(X)+var(Y)+2cov(X,Y). 
。 具 有 正方 差 的 随机 变量 X 和 了 的 相关 系数 p(X,Y) 定义 为 
cov(X,Y) 
2 var(X)var(Y) 
且 满 足 
—1l < p(X,Y)<1. 
4.3 ”再 论 条 件 期 望 和 条 件 方差 
本 贡 再 次 讨论 随机 变量 X 在 给 定 男 一 个 随机 变量 Y 之 下 的 条 件 期 望 , 可 将 这 


个 条 件 期 望 看 成 依赖 于 Y 的 函数 , 因而 是 随机 变量 . 我 们 将 导出 全 期 望 定理 的 另 


一 个 版 本 ， 


称 为 重 期 望 法 则 , 用 通俗 的 语言 说 , 就 是 条 件 期 望 的 期 望 等 于 无 条 件 期 


望 . 同时 , 我 们 也 推导 全 方差 法 则 ,该 法 则 涉及 条 件 方差 和 无 条 件 方差 
一 个 随机 变量 X 的 条 件 期 望 E[X|Y = yy 的 值 , 依赖 于 Y 的 值 y， 因 为 


EIX|Y = 可 是 y 的 函数 , 所 以 E[X|Y] 是 Y 的 函数 , 因此 也 成 为 一 个 随机 变量 ， 
它 的 分 布依 赖 于 Y 的 分 布 . 在 本 节 中 , 我 们 研究 EIXI 的 期 望 和 方差 . 它 的 性 质 


不 仅 在 本 章 很 重要 , 而 且 在 第 8 章 和 第 9 章 的 估计 和 统计 推断 中 也 特别 重要 . 


例 4.16 


随机 的 ， 假 定 正面 朝 上 的 概率 Y 的 分 布 为 已 知 , 它 是 [0,1| 上 的 分 布 . 现在 我 们 
投掷 n 次 人 硬币, 定义 X 为 正面 朝 上 的 总 次 数 ， 由 于 对 任意 的 y e [0,1], 我 们 有 
EIX|Y = y= ny, 所 以 EI[X|Y] 是 随机 变量 nY. 


假设 我 们 在 投 撕 一 个 不 均匀 的 硬币 , 正面 朝 上 的 概率 , 记 为 YY， 也 是 


既然 EXIZ 是 一 个 随机 变量 , 那么 就 应 该 有 自己 的 期 望 EIE[X|Z]]. 使 用 期 望 
法 则 , 可 得 


DEIXIY = ypy(y), Y 离散 ， 
E[IE[XIY]] = > Y, 
/BXY =Wfy(Way，Y 连续 
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右边 的 两 个 表达 式 在 第 2 章 和 第 3 章 中 都 非常 熟悉 . 使 用 全 期 望 定理 , 它们 都 
等 于 E[X]. 这 样 我 们 就 可 以 得 出 如 下 结论 : 不 管 随机 变量 Y 是 离散 的 、 连 续 的 、 
或 混合 的 , 只 要 随机 变量 X 具有 有 限 的 期 望 EB[X], 下 面 的 法 则 成 立 . 


重 期 望 法 则 : E[E[X|Y]| = E[X]. 


下 面 使 用 实例 来 说 明 如 何 运 用 重 期 望 法 则 来 计算 涉及 条 件 概率 的 问题 中 
望 值 . 
例 4.16 ( 续 ) ”假设 Y 是 投掷 硬币 出 现 正面 的 概率 (Y 是 随机 变量 ! ), Y 的 分 布 
是 [0,1] 上 的 均匀 分 布 . 因为 E[X|Y] = nY, 且 EIY] = 1/2, 运用 重 期 望 法 则 , 可 得 

E[X] = EIE[IX|Y] = ElnY] = nE[Y] = > 口 
例 4.17 我 们 考虑 一 根 长 度 为 1 的 木 棍 . 从 一 点 将 其 折断 , 这 点 是 随机 选择 的 , 即 
这 个 点 的 分 布 是 在 整 条 木 棍 上 均匀 分 布 . 折断 以 后 , 留 下 含 木 棍 左 端的 那 一 半 . 我 
们 接 下 来 重复 以 上 步骤 . 试问 在 折 两 次 之 后 剩 下 的 木 棍 长 度 的 期 望 是 多 少 ? 

记 节 为 第 一 次 折断 之 后 剩 下 的 木 棍 长 度 , X 为 第 二 次 折断 之 后 木 棍 剩 下 的 长 
度 . 我 们 有 EI[X|Y] = Y/2, 这 是 因为 断 点 是 在 剩 下 的 长 度 Y 上 均匀 选择 . 类 似 地 ， 
有 EIY] = 1/2. 因此 ， 


em 


的 期 


E[X] = EIEIXIZ] = 了 国 = = = 


例 4.18 (全 班 平均 成 绩 与 分 组 平均 ) ”一 个 班级 有 n 名 学 生 . 学 生 i 的 测验 分 数 记 
为 zi. 已 知 班级 测验 的 平均 分 为 


现 将 全 部 学 生 分 成 个 互 不 相交 的 子 集 41,… ,Ak( 组 ). 我 们 记 ms 为 第 s 组 的 学 
生 数 . 第 s 组 的 平均 分 数 为 


全 班 的 平均 分 数 可 以 用 每 组 的 平均 分 数 ms 的 加 权 平 均 来 计算 , 第 s 组 的 权重 正 
比 于 为 该 组 的 学 生 数 , 即 权重 为 ws/m. 直接 计算 证 明 此 法 得 到 的 结果 是 正确 的 : 


k 


> Ns Ns 2 
—ms 二 a Ti 
nN Ns 

As 


部 = 汪 二 二 i€ 


-HD 


二 吕 世 放 
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1 Nn 
= 
这 和 条 件 期 望 怎样 联系 起 来 的 呢 ? 考虑 这 样 一 个 实验 . 随机 地 选择 一 位 学 生 ， 
其 中 每 个 学 生 被 选中 的 概率 是 1/n. 考虑 下 面 两 个 随机 变量 ; 
X= 被 选中 的 学 生 的 成 绩 ， 
Y= 被 选中 的 学 生 所 在 的 组 ”(Y € {1,… ,}). 
所 以 
E[X| = m. 
事件 {Y = s} 与 选中 的 学 生 属 于 s 组 是 等 同 的 事件 . {Y = s} 发 生 的 条 件 下 ， 
每 个 在 这 个 组 的 学 生 被 选中 的 概率 为 因此 ， 
EI[XIY = s] 人 Xi = Ms. 
C9 i€EAs 
一 个 随机 选中 的 学 生 属 于 s i ns/n, 即 P(Y = s) =ns/n. 因此 ， 
k 
Ns 
m = E[X] = E[EIX|Y]) = Dax = sp = s) = mn 
因此 , 利用 组 平均 求全 班 平均 成 绩 的 方法 可 视 为 重 期 望 法 则 的 一 种 特殊 情况 . 
例 4.19 (预测 调整 ) ” 记 Y 了 Y 为 公司 来 年 上 半期 的 销量 , X 为 全 年 销量 . 公司 已 经 


建立 销量 统计 模型 , 所 以 X 和 了 的 联合 分 布 是 已 知 的 . 人 期 望 E[X] 可 以 作 


> -有 
里 


际 销 


X 的 一 


Y 已 知 . 这 将 我 们 置 于 一 个 


解 ， 


已 


由 习 


这 意 


年 的 


算 说 明 这 个 随机 变量 
期 望 位 到 


这 是 因为 , 在 给 定 Y 的 条 件 下 , g(Y) 是 


公司 建立 本 二 
根据 年 度 中 期 


期 望 法 则 可 知 : 


E[E[X 
味 着 虽然 中 期 


在 年 度 q 

新 环境 中 ， 
个 调整 后 的 年 度 销 
信息 , 我 们 


种 预测 . 


日 


yY] — EIX] 


和 


可 将 E[X|Y] 一 


= E[E[X|Y] 


_ 且 . 


其 时 , 上 半年 的 销量 已 经 
在 这 里 所 有 变量 都 依赖 了 
量 预测 EIXI 到 ]. 
E[X] 看 成 中 其 


六 


— E[X] = E[X] ~ E[X| = 0. 


的 销量 预 涡 


销售 量 , 只 能 


百 给 出 


题 25). 


E 值 , 原先 


把 销量 预测 
均值 为 0. 


的 了 


期 望 的 一 个 如 
ElXg(Y) 


1 的 修正 值 一 
的 修正 值 EI[X|Y] 一 


因此 随机 变量 


的 销量 预测 的 修了 


股 不 等 于 0, 但 在 年 初 我 们 并 
E[X] 看 成 一 个 随机 变量 . 概率 计 


ER 


FY. 基于 对 YY 的 了 


: 


ee 


道 


上 半 


不 知 


这 在 直观 上 是 十 分 合理 的 , 事实 - 


E 的 预报 在 最 初 就 应 该 更 高 . 
E 要 性 


质 : 对 任意 给 定 的 函数 g, 均 有 
Y] = 9(Y)EIXIY]. 
数 , 所 以 可 以 从 期 望 


人 和 培 , 
个 吊 


上 ,如 果 这 个 


P 提 出 来 (见习 
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4.3.1 ”条 件 期 望 作为 估计 量 


如 果 我 们 将 Y 视 为 能 提供 关于 X 的 信息 的 观测 值 , 则 我 们 很 自然 地 将 条 件 期 
望 作为 给 定 Y 的 条 件 下 对 XX 的 估计 , 记 为 


久 = EIXIY]. 


这 样 , 估计 误差 就 定义 为 


天 二 鲍 一 广 . 
显然 估计 误差 也 是 随机 变量 , 且 满 足 


E[X|IY] = E[((X — X)|Y] = E[X|Y] ~ E[X|Y] = XX—-X=0. 


所 以 随机 变量 E[X|Y] 恒 为 0: 对 任意 的 y, E[X|Y = yj = 0. 运用 重 期 望 法 则 , 还 
可 以 得 到 
E[X] = E[E[X|Y]] = 0. 
这 就 表明 估计 误差 没有 系统 性 的 正 或 负 的 偏 倚 . 
下 面 接着 证 明 这 具有 另 一 个 有 趣 的 性 质 : 它 与 估计 误差 六 是 不 相关 的 . 习 
上 , 运用 重 期 望 法 则 , 可 得 


= 
党 


E[XX] = EI[E[XXIY]] = EL[XEIX|Y]| = 0， 


最 后 两 个 等 式 成 立 的 原因 是 完全 由 YY 确定 , 所 以 


E[XXIY] = XE[XIY] = 0. 
从 而 
cov(X,X) = EILXX] — EI[XJE[X| = 0— EI[X]:0=0, 


故 广 与 广 是 不 相关 的 ， 
基于 cov( 屋 ,X) = 0 这 个 结论 , 又 注意 到 和 = 总 十 广 , 两 边 取 方差 , 我 们 可 以 


var(X) = var(X)+var(X). 

上 面 这 个 等 式 , 可 以 表述 为 一 个 有 用 的 法 则 , 下 面 我 们 开始 讨论 这 个 法 则 . 
4.3.2 ”条 件 方差 

首先 介绍 随机 变量 


var(X|Y) = E[(X ~ EI[X|Y])?|Y] = E[X?|Y]. 
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这 是 一 个 关于 工 的 函数 , 对 于 给 定 的 Y 值 y, 它 等 于 在 已 知 {Y = 办 的 条 件 下 , X 
的 条 件 方 差 为 


var(X|Y = vy) = EI[X?|Y = 要. 


利用 结论 E[X] = 0 和 重 期 望 法 则 , 我 们 可 以 将 估计 误差 的 方差 写成 


var(X) = E[X?] = E[E[X?|Y]] = Elvar(X|Y)), 


所 以 等 式 var(X) = var( 闷 ) + var( 误 ) 就 可 以 写 为 如 下 形式 . 


全 方差 法 则 : var(X) = Elvar(X|Y)] + var(E[X|Y]). 


下 面 举例 说 明 全 方差 法 则 对 计算 随机 变量 的 方差 非常 有 用 . 
例 4.16 ( 续 ) ”我 们 还 是 考虑 n 次 投掷 一 枚 不 均匀 的 硬币 的 实验 . 设 Y 是 投掷 硬 
币 正 面 朝 上 的 概率 , 服从 [0,1] 区 间 的 均匀 分 布 . 定义 X 为 n 次 投掷 硬币 正面 朝 上 
的 总 次 数 . 则 对 任意 的 y es [0,1], 我 们 有 E[X|Y = yy = ny, 故 E[X|Y] = mnY, 且 
var(X|Y) =nY(1 一 了 ). 所 以 


Elvar(X|Y)] = EInY(1 = Y)] = n(E[IY] = E[Y?]) 


= n(E[Y] ~ var(Y) ~ (EI[Y])?) =%n (3 i) = 三. 


var(E[IXIZ]) = var(nY) = ©. 


12 
所 以 , 运用 全 方差 法 则 , 我 们 有 


Nn n2 
= 二 十 


var(X) = Elvar(X|Y)| + var(E[XIY]) 上 


例 4.17 ( 续 ) ”重新 考虑 两 次 折断 木 棍 的 问题 . 木 棍 原 长 1 断 点 是 随机 选择 的 . 并 
是 第 一 次 折断 后 剩 下 的 长 度 , X 是 第 二 次 折断 后 剩 下 的 长 度 . 我 们 已 经 计算 得 到 和 
的 期 望 为 1/4. 现在 运用 全 方差 法 则 来 计算 var(X). 

因为 X 服从 0 到 YY 之 间 的 均匀 分 布 , 得 


var(X|Y) = 一 


因为 Y 服从 0 到 1 之 间 的 均匀 分 布 , 得 


1 /1 1 1 1 12 
Elvar(X|Y)] = 证/ TY dy 一 1 人 1 = 了 
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同时 E[X|Y] = Y/2, 所 以 


1 Li 到 
var(E[X|Y|) = var(Y/2) = 4var(Y) = 
根据 全 方差 法 则 , 得 
12 12 712 
var(X) = Elvar(X|Y)| + var(E[XIY|) = 3 十 二 


例 4.20 (学 生成 绩 的 方差 与 分 组 方差 ) ”所 讨论 的 问题 背景 与 例 4.18 中 的 相同 , 我 
们 重新 考虑 这 些 随 机 变量 


X= 学 生 的 成 绩 ， 
Y= 该 生 所 在 的 组 ”(Y € {1,… ,%}). 


记 ns 为 第 s 组 的 学 生 数目 , 记 n 为 学 生 总 数 . 我 们 解释 下 列 公式 中 的 不 同 的 量 


var(X) = Elvar(X|Y)| + var(E[X|Y]). 


在 这 里 , var(X|Y = s) 是 第 s 组 测验 分 数 的 方差 . 因此 ， 


检 大 
Elvar(X|Y)] = 》 P( = s)var(X|Y = s) 二 var r(X = s), 


本 三 = 


所 以 Elvar(XIY)] 是 各 组 方差 的 加 权 平 均 , 这 里 每 个 组 的 权重 与 组 内 人 数 成 正比 . 
注意 , E[X|Y = s] 是 第 s 组 的 平均 成 绩 . 因此 , var(E[IXIZ 切 ) 就 是 各 组 均值 波动 
性 的 度量 . 全 方差 法 则 表明 分 数 的 总 方差 可 以 划 为 两 部 分 : 

(a) 在 每 组 内 部 方差 的 平均 数 Elvar(X|Y)]; 

(b) 各 组 之 间 的 方差 var(E[X|Y]). 

我 们 前 面 已 经 发 现 重 期 望 法 则 (以 全 期 望 定理 的 方式 给 出 ) 可 以 用 来 化 简 复 杂 
的 期 望 计算 . 对 于 方差 计算 也 可 用 类 似 的 方法 . 
例 4.21 (通过 给 定 条 件 来 计算 方差 ) 考虑 一 个 连续 随机 变量 X, 它 的 概率 密度 函 
数 在 图 4.13 中 给 出 , 我 们 定义 一 个 辅助 的 随机 变量 了 如 下 : 


EE, EIXIY] 以 1/2 的 概率 分 别 取 值 1/2 和 2. 因此 , E[X|Y] 的 均值 为 5/4. 接 下 


var(B[X|Y]) = 5 (3 Es (2 7 二 人 


出 


举 了 
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图 4.13 例 4.21 中 的 概率 密度 函数 


当 在 给 定 Y = 1 或 Y =2 的 条 件 下 , X 在 长 度 为 1 或 2 的 线段 上 均匀 分 布 . 
因此 


1 4 
var(X|Y=1)=~, var(X|lY =2)= ~, 


12 12 
且 
1 1 1 4 5 
Elvar(X|Y)| = a 
归 总 , 得 
var(X) = Elvar(X|Y)] + var(E[XIY]) = 二 二 二 一 开 
世 24 16 48 


总 结 本 节 要 点 如 下 . 


条 件 期 望 和 条 件 方差 的 性 质 

。E[X|Y =y 的 值 依 赖 于 y. 

。E[X|Y] 是 随机 变量 了 的 函数 , 因此 它 也 是 一 个 随机 变量 . 当 YY 的 值 为 y 
时 , 它 的 值 就 等 于 E[X|Y = yl. 
EIE[X|Y]] = E[X] ( 重 期 望 法 则 ). 
E[X|Y = y 可 视 为 已 知 Y=y 时 对 六 的 估计 . 相应 的 估计 误差 E[X|Y] 一 
和 是 一 个 零 均 值 的 随机 变量 , 且 与 EI[X|Y] 是 不 相关 的 . 
var(XI7) 也 是 个 随机 变量 ， 当 Y 的 值 为 y 时 它 的 值 就 等 于 var(X|Y 
一切 . 
var( 和 X) = 也 var(X|IZ)] 十 var(E[X|Y]) (全 方差 法 则 ). 


4.4 和 矩 母 函数 


在 本 节 中 , 我 们 引进 与 随机 变量 相关 的 矩 母 函 数 "这 个 概念 . 矩 母 函 数 是 对 概 
率 (分 布 列 或 者 概率 密度 函数 ) 的 另 一 种 表述 . 它 并 不 是 特别 直观 的 , 但 是 在 解决 
某 些 类 型 的 数学 计算 时 很 方便 . 


@ 原文 为 变换 , 按 国 内 术语 译 成 和 矩 母 函 数 . 一 一 译 者 注 
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一 个 与 随机 变量 X 相关 的 和 珑 母 函 数 是 参数 s 的 函数 Mx(s), 定义 如 下 


Mx(s) = Eles< 1]. 


当 从 上 下 文中 可 以 明显 看 出 所 指 随机 变量 是 X 时 , 矩 
更 具体 地 , 当 X 是 离散 随机 变量 时 , 相关 矩 母 函 数 为 


M(s) = Depx(z) 


当 X 是 连续 随机 变量 时 , 有 ” 


母 函 数 也 可 以 简 记 为 M(s). 


下 面 给 出 矩 母 函 数 的 一 些 例 子 
例 4.22 设 
1/2, 车 尼 一 2, 
Dx(Z) = 11/6， 若 z=3， 
1/3， 若 zx=5. 
则 相应 的 算 母 函数 为 1 1 1 
M(s) = 3 十 a 十 ae 


例 4.23 ( 泊 松 随机 变量 的 矩 母 函 数 ) 


和 ze 一 和 


设 随机 变量 X 服从 参数 为 和 的 泊 松 分 布 


DxX(Z) = zl z=0,1,2,.…, 
则 其 甜 母 函数 如 下 所 示 a 
M(s) = Se 
= 
记 a =e 入 则 
Em cy Q Ge 一 入 a ea 一 和 ex(e 一 1). 
zl! 


2 一 0 


例 4.24 (指数 随机 变量 的 矩 母 函 数 ) ” 设 随机 变量 X 服从 参数 为 的 指数 分 布 


fx(x) = Xe ^z， 


@ 对 拉 普 拉 斯 变换 熟悉 的 读者 可 能 会 发 现 一 个 连续 随机 变量 的 相关 算 
的 拉 普 拉 斯 变换 是 基本 相同 的 , 唯一 的 区 别 是 拉 普 拉 斯 变换 道 常 合 
型 的 情况 , 变量 > 有 时 取代 es, 得 到 的 矩 母 函数 M(z) = 
不 会 使 用 > 变换 


2 过 0， 


母 函 数 和 它 的 概率 密度 函数 
e-sz 而 不 是 esz. 对 于 离散 
> zzpx(z) 称 作 > 变 换 . 但 是 , 本 书 中 
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则 
(=*/ esze- AZzdz 
一 入 | (s—- Nrqy 


—A)z 
( 当 s < 入 时 ) 


oo 


以 上 运算 和 M(s) 的 公式 仅 在 s < 入 下 成 立 , 否则 积分 为 无 穷 . 


重要 的 是 要 认识 到 和 矩 母 函数 不 是 一 个 数 而 是 一 个 参数 为 ， 的 函数 . 矩 母 函 数 
作用 于 一 个 函数 (比如 说 概率 密度 函数 ), 得 到 一 个 新 函数 . 严格 地 说 , M(s) 只 在 使 


得 ElesX] 有 限 的 s 上 有 定义 . 上 一 个 例子 已 经 说 明了 这 个 事实 . 


例 4.25 (随机 变量 线性 函数 的 矩 母 函 数 ) ” 记 Mx(s) 为 随机 变量 


考虑 新 随机 变量 了 = aX 十 b 的 矩 母 函 数 . 由 矩 母 函数 定义 , 有 


My(s) = ElesX+0] = 一 estEleso] = ew Mx (sa). 


片 


EX 的 矩 母 函数 ， 


例如 , 如 果 X 服从 参数 入 = 1 的 指数 分 布 , 则 Mx(s) = 1/(1 一 s), 如 果 工 =2X 二 3， 


则 ] 


My(s) =e3s ~. 
0 


例 4.26 ( 正 态 分 布 随机 变量 的 矩 母 函 数 ) ” 记 X 为 服从 均值 为 人 方差 为 o? 的 正 
EY 的 情况 ， 


态 随机 变量 . 为 了 计算 它 的 矩 母 函 数 , 首先 我 们 考虑 标准 正 态 随机 变量 


对 YY 有 k=0 且 oo?=1. 求 出 Y 的 算 母 函数 以 后 , 再 应 用 前 对 


让 LH 


例子 里 


[| 


导出 X 的 矩 母 函数 标准 正 态 分 布 的 概率 密度 函数 为 
让 四 三 a 


相关 和 矩 母 函数 为 


= 1 
二 / ey 


T 


/+eyqy 


1 

加 V2T 
1 Ce 

= 元 / 0- (0 /2)+ey-(e? /Ddy 


2 广 e-G-a2/2dy 


的 公式 ， 
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一 个 等 邱 


中 ， 最 后 | 二 配 
数 的 归 一 化 性 质 . 
均值 为 到 方差 为 o? 的 正 态 随机 变量 可 表 成 标准 正 态 随机 变量 的 线性 函数 : 


及 一 IOY 十 内 . 
Y 的 矩 母 函 数 为 My(s) = es /2, 应 用 例 4.25 中 的 公式 , 有 


2s2/2) 十 1s 


态 随机 变量 的 概率 密度 函 


为 s 方差 为 1 的 正 ; 


1 用 了 服从 均值 


而 标准 正 态 随 机 变量 


Mx(s) = est My (so) = ec 


4.4.1 ”从 和 矩 母 浮 数 到 和 矩 
“ 甜 母 函数 ”这 一 名 称 是 | 的 矩 可 以 通过 和 矩 母 函数 的 公式 轻易 计算 
而 得 来 的 . 为 验证 这 一 点 , 现在 考虑 一 随机 变量 X, 根据 定义 


ja er fx (2) de, 


ee )dz 


i ex 


人 ve™ fx(z)dz. 
都 成 立 " 考虑 s ==0 时 的 特殊 情况 , 有 
SM(s)| = A we 
更 一 般 地 , 如 果 我 们 对 M(s) 取 久 次 s 的 导数 , 通过 类 似 的 计算 有 
MO)|, = /fxd = 


于 随机 变量 


个 连续 


在 M(s) 定义 式 两 i 


掉 的 等 式 对 s 取 人 有 


E 何 值 
dM(s) 


E[X"]. 


ds s=0 


例 4.27 我 们 在 前 面 ( 例 4.22) 已 知 


1/3, 


@ 这 个 导数 涉及 微分 和 积分 次 序 的 交换 . 这 种 交换 对 本 


三 
若 zx=3， 
若 z=5. 


一 般 的 随机 变量 这 种 积分 和 微分 的 次 序 都 是 可 交换 的 (包括 离散 随机 变量 ). 


的 等 式 也 是 成 立 的 : 


ds 


Eles**]=E 


| -pe 


讨论 的 所 有 情况 都 适用 . 


事实 上 ， 


冯 


下 面 更 
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I 


相关 和 矩 母 函数 为 


因此 ， 


同时 


6 
肯 数 随机 变量 的 概率 密度 函数 为 


串 


前 面 ( 例 4.24) 已 得 
MO = 己 - 
因此 ， 
d 入 d2 四 
0 
令 s=0, 有 
站 EX 二 二 
= = 元 ， 


这 和 第 3 章 中 推出 的 公式 相 吻合 . 
我 们 以 矩 母 函 数 的 两 个 更 有 用 且 普 遍 的 性 质 结 束 本 节 . 对 于 任意 的 随机 变 生 
XX, 有 


串 


且 如 果 X 仅 取 非 负 整数 值 时 , 有 


( 见 本 章 末 习题 ). 
4.4.2 和 矩 母 函数 的 可 逆 性 

算 母 函数 Mx(s) 的 一 个 非常 重要 的 性 质 是 它 可 逆 , 即 可 用 它 来 确定 随机 变量 
X 的 概率 律 . 当然 , 为 了 使 矩 母 函数 Mx(s) 能 够 确定 相应 的 概率 律 , 一 些 合适 的 数 
学 条 件 是 必要 的 . 幸运 的 是 , 我 们 所 列举 的 例子 中 的 和 矩 母 函数 都 满足 这 些 条 件 . 下 
面 是 一 个 更 精准 的 描述 , 其 证 明 已 经 超出 了 本 教程 的 范围 . 


和 矩 母 函 数 可 逆 的 条 件 
假定 随机 变量 X 的 矩 母 函 数 Mx(s) 满足 : 存在 一 个 正 数 w 对 在 区 间 [一 oa,a] 
中 的 任意 s, Mx(s) 都 是 有 限 的 , 则 矩 母 函 数 Mx(s) 唯一 地 决定 X 的 分 布 函 数 . 


实际 上 , 有 显 式 的 公式 可 以 让 我 们 从 随机 变量 的 矩 母 函数 导出 它 的 分 布 列 或 概 
率 密度 函数 , 但 是 使 用 起 来 相当 困难 . 实际 上 , 矩 母 函数 通常 可 以 基于 已 知 分 布 - 矩 
母 函 数组 合 的 表格 , 通过 “类 型 配合 ”进行 反 演 . 下 面 来 看 一 些 这 样 的 例子 . 
例 4.28 ”已 知 随机 变量 X 的 相关 咎 母 函数 为 
M(s) = ee Ser 5 有 


因为 M(s) 是 es 的 代数 和 , 我 们 可 以 与 离散 随机 变量 的 矩 母 函数 的 通用 公式 
M(s) = Yepx(z) 


S 


相 比 较 , 通过 比较 可 以 推出 X 是 一 个 离散 随机 变量 . X 的 取 值 范围 可 以 从 相应 的 
指数 读 出 来 , 即 -1、0、4、5. 取 每 个 x 值 的 概率 可 以 从 es? 前 面 乘 的 系数 得 到 . 在 
本 例 中 , 即 


P(X = -1) = P(X =0) = P(X = = P(X = = 
从 上 面 的 例子 可 以 看 出 , 一 个 只 取 有 限 个 值 的 离散 随机 变量 的 分 布 可 以 通过 观 
察 其 矩 母 函数 得 出 . 同样 , 这 样 的 方法 对 于 取 可 数 无 限 多 个 值 的 离散 随机 变量 也 有 
效 , 可 见 下 例 . 
例 4.29 (几何 随机 变量 的 矩 母 函数 ) “已 知 随机 变量 X 的 矩 母 函数 为 
De” 
1— (1—p)es’ 


M(s) = 
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这 里 p 是 一 个 常数 , 且 0 < p <1. 我 们 想 要 求 出 X 的 分 布 . 由 几何 级 数 公式 得 


1 
=1 二 ao 十， 


工 一 Q 
上 式 对 于 任意 满足 |a| < 1 的 a 都 成 立 . 我 们 对 a = (1 一 p)es 运用 此 公式 , 这 
求 s 充分 接近 0 使 得 (1 一 p)es < 1. 此 时 , 矩 母 函数 具有 展开 式 
M(s)= pe’(1+(1—pe’+(1—p)e® 十 (一 De 十) 


将 这 个 式 子 与 上 例 中 一 般 离散 随机 变量 的 矩 母 函 数 的 表达 式 比较 , 可 知 M(s) 所 对 
应 的 随机 变量 是 取 正 整数 值 的 离散 型 随机 变量 . 概率 P(X = 如 可 以 通过 读 取 ess 
的 系数 得 到 . 具体 来 说 , P(XX=1)=p, P(X =2) = p(1 一 p), 一 般 地 有 


P(X=%)=p(1—p)"), k= 1,2,... 


可 见 这 个 分 布 正 是 参数 为 p 的 几何 分 布 . 
注意 


中 


d pes (1 — p)pe”s 

ee 
当 s = 0 时 , 右边 等 于 1/p, 这 和 第 2 章 推出 的 E[X] 公式 相符 
例 4.30 (混合 分 布 的 矩 母 函 数 ) ”已 知 附近 银行 有 三 位 交易 员 , 两 位 快速 交易 员 ， 
一 位 慢 速 交易 员 . 已 知 交易 员 为 一 名 客户 服务 的 时 间 服 从 指数 分 布 , 快速 交易 员 对 
应 的 参数 入 = 6, 慢 速 交易 员 对 应 的 参数 入 = 4. 简 来 到 银行 , 随机 选择 了 一 位 交易 
员 , 每 位 交易 员 被 选中 的 概率 为 1/3. 试 求 出 简 接 受 服务 的 时 间 的 概率 密度 函数 和 
矩 母 函数 . 

记 X 为 简 接受 服务 的 时 间 , 我 们 有 


Jx(Z) = : . 6e -67 十 5 .4e-4， 7z>0. 
相应 的 窍 母 函数 为 
MI(5) 3 es (G3 .Ge 07 十 54 0 dz 


= ; 人 es?6e "dz 十 本 用 esz4e ?dz 
i 是 
ee Ps 
更 一 般 地 , 设 评 ,…. ,X 为 概率 密度 函数 fx,,… , fx,, 的 连续 随机 变量 . 随机 变 
量 Y 的 一 个 值 y 是 这 fF 取得 的 : 先 随机 地 选 出 指标 i 选 到 i 的 概率 为 p;, 如 果 指 
标 i 被 选中 , y 即 取 X; 的 值 . 此 时 , Y 的 概率 密度 函数 为 


fy(y) = pifx(y) + :+ pnfx, (y), 
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相应 的 矩 母 函 数 为 
My(s) = p1 Mxi(s)+ + pnMax, (s). 


反 过 来 , 我 们 也 可 从 算 母 函数 求 出 相应 的 分 布 . 例如 , 已 知 随机 变量 Y 的 矩 母 
冰 数 有 如 下 形式 .: 


2 DE 1 
将 这 个 函数 改写 为 
1 2 3 这 
es 
可 见 Y 是 两 个 参数 分 别 为 2 和 1 的 指数 随机 变量 的 混合 变量 , 这 两 个 变量 被 选中 
的 概率 分 别 为 1/4 和 3/4. 
4.4.3 ”独立 随机 变量 和 
抢 母 机 数 的 方法 对 于 处 理 随 机 变量 和 的 问题 尤其 便利 . 我 们 将 看 到 , 独立 随机 
变量 的 和 的 矩 母 函 数 是 和 项 的 矩 母 函数 的 乘积 . 这 样 也 提供 了 卷 积 公式 之 外 的 另 一 
个 便利 的 公式 . 
记 X 和 了 为 独立 的 随机 变量 , 并 记 2 = 关 十 根据 定义 , 2 的 矩 母 函 数 为 


Mz(s) = Ele’?] = Ele’(X+Y)] = Eles“ es 


因为 X 和 了 是 独立 的 , 对 于 任意 的 s， 人 和 es7 是 相互 独立 的 随机 变量 , 因此 ， 
它们 乘积 的 期 望 即 为 它们 期 望 的 乘积 ， 


Mz(s) = Eles*]Ele’Y] = Mx(s)My(s). 


同样 地 , 如 果 Xi1,… , Xn 是 独立 的 随机 变量 , 且 


F = Ri 


相应 的 矩 母 函数 之 间 有 下 面 的 关系 : 


Mz(s) 一 Mx (s):.: Mx, (5). 


例 4.31 (二 项 随机 变量 的 矩 母 函 数 ) ” 设 Xi,… ,Xi 为 独立 的 伯 努 利 随机 变量 , 参 
数 都 为 p. 按 定义 , 不 难得 到 


My (s) = (1 — p)e® + pels = 1 -pp+pes 对 一 切 i 成 立 ;. 


随机 变量 2 = Xi 十 … 十 X 服从 参数 为 n 和 7 的 二 项 分 布 , 相应 的 矩 母 函 数 为 


Mz(s) =(1 一 D 十 pe ) 
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例 4.32 (独立 泊 松 随机 变量 之 和 仍 为 泊 松 随机 变量 ) ” 设 X 和 工 为 两 个 相互 独 
立 的 泊 松 随机 变量 , 均值 分 别 为 入 和 凡 由 例 4.23 知 ， 
Mx(sj=exe -0D， My(s)= ee -0， 
记 2Z=XT+DE 由 于 和 YY 相互 独立 , 我 们 有 
Mz(s) = Mx(s)My(s) = e*\® ~ Ver(® -一 er 一， 

因此 , 2 的 矩 母 函 数 和 均值 为 和 十 4 的 泊 松 随机 变量 的 矩 母 函数 相同 . 根据 矩 母 函 
数 的 唯一 性 , 2 服从 均值 为 和 +A 的 泊 松 分 布 . 
例 4.33 (独立 正 态 随 机 变量 之 和 仍 为 正 态 随机 变量 ) ” 设 和 和 了 为 两 个 相互 独 
立 的 正 态 随机 变量 , 均值 分 别 为 we 和 po, 方差 分 别 为 c: 和 o3. 记 2Z= 针 二 则 


o2s2 o2s2 
Mx(s)=€@ 加 十 Hzs， My(s) =e a tuys, 
且 (zc2 十 c2)s2 
Mz(s) 一 e 一 了 二 (He 二)s. 


因此 , 2 的 矩 母 函 数 与 均值 为 jw 十 jy 方差 为 o: + a2 的 正 态 随机 变量 的 怎 母 函数 
相同 . 根据 矩 母 函 数 的 唯一 性 , 2 服从 上 述 参数 的 正 态 分 布 . 这 与 4.1 节 中 根据 卷 
呐 公式 计算 出 来 的 结果 是 一 样 的 . 


和 矩 母 函数 及 其 性 质 的 小 结 
。 随 机 变量 X 的 矩 母 函数 定义 如 下 : 


5 epx(z)， 若 X 为 离散 型 ， 
Mx(s) = 了 les] = 2 


广 es jx(z)dz， 若 X 为 连续 型 . 
。 随 机 变量 的 分 布 完 全 由 它 的 矩 母 函数 确定 . 
e。 利用 矩 母 函 数 计算 随机 变量 的 各 阶 甜 : 


Mx(0) =1, SMx(s) 


= ElX 一 一 人 
汰 关外 ， ds7 b= 


e。 车站 =aX+b, 则 My(s) = eMx(as). 
。 若 和 和 了 相互 独立 , 则 Mx+y(s) = Mx(s)My(s). 


我 们 已 经 得 到 了 一 些 常见 随机 变量 的 矩 母 函数 的 公式 .我 们 也 可 以 用 适量 的 
代数 学 知识 , 对 许多 其 他 的 分 布 推导 类 似 的 公式 ( 见 本 章 末 有 关 均 匀 分 布 的 习题 ) 
现 将 这 些 结果 列 于 下 面 的 表格 中 ， 
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常见 的 离散 随机 变量 的 矩 母 函 数 
。 参数 为 p 的 伯 努 利 分 布 (k = 0,1) 
若 天 =1 
Px(k) = ~ Mx(s)=1-p+pe’. 
1 —b, 厂 k 一 0， 
e 参数 为 (n,p) 的 二 项 分 布 ( = 0,1,… ,n) 
px(k) = (ro —p)"*, Mx(s)= (1—p+pe’)”. 
。 参数 为 p 的 几何 分 布 (k= 1,2,…) 
px(k) = p(l —p)*, WM) 
。 参数 为 和 的 泊 松 分 布 (k= 0,1,…) 
e 和 X(es_1) 
Px(k) = Mx(s)=e 
。(a,5) 上 的 均匀 分 布 (k= a,a 十 1,.… ,0) 
1 eas elb-atl)s _1 
oi vb—at+l’ Mo es 一 1 
常见 连续 随机 变量 的 德 母 函数 
e (a,b) 上 的 均匀 分 布 (a<zx<ob) 
1 1 sb _ ,sa 
fx(7) = Fo Mx(s) = 5—— - 
。 参数 为 和 的 指数 分 布 (z > 0) 
入 
fx (7x) 三 和 Xe 一 Xz ， Mx(s) 二 a (s A 入 ). 
。 参数 为 (1,o?) 的 正 态 分 布 (-00 < x < co) 
Fx(z) = ee Mx(s) = e(a2s2?/12)+Hs 
4.4.4 联合 分 布 的 矩 母 函 数 
如 果 两 个 随机 变量 X 和 Y 通过 联合 分 布 (例如 联合 概率 密度 函数 ) 来 描述 ， 
那么 每 个 变量 都 有 一 个 矩 母 函 数 Mx(s) 和 My(s). 它们 是 边缘 分 布 的 矩 母 函 数 ， 
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不 包含 任何 关于 这 两 个 随机 变量 相依 性 的 信息 . 而 两 个 随机 变量 相依 性 的 信息 包含 
在 多 元 矩 母 函 数 中 , 下 面 给 出 定义 . 

考虑 同一 试验 中 的 ”个 随机 变量 Xi ,Xn. 记 s1,… ,sn 为 无 量 纲 实 参数 . 
多 元 短 母 函数 是 这 见 个 参数 的 函数 , 它 定 义 为 


MX 和 (51 ,sn) = Elesi Xt"+tsn Xn]. 


前 面 讨 论 过 的 和 矩 母 函数 的 可 逆 性 可 以 推广 到 多 元 情形 , 即 如 果 页 …… ,又 是 另 一 
随机 变量 ， Myx ,xa (S51 ;5n) 与 Mr(s ,Sn) 相同 , 则 Xi1,… ,X, 
的 联合 分 布 与 六 ,… , 的 联合 分 布 相同 ， 


4.5 ”随机 数 个 相互 独立 的 随机 变量 之 和 


到 现在 为 止 , 我 们 讨论 过 的 随机 变量 求 和 的 问题 中 , 总 是 假定 随机 变量 个 数 是 
己 知 且 固 定 的 . 在 本 节 中 , 我 们 考虑 这 样 的 情况 : 在 随机 变量 求 和 的 过 程 中 , 随机 
变量 的 数目 本 身 也 是 随机 的 . 特别 地 , 我 们 考虑 


Y = Xi+..+ XN, 


这 里 N 是 个 取 正 整数 值 的 随机 变量 , Xi, X2,… 是 同 分 布 的 随机 变量 (如 果 NN = 0， 
则 定义 = 0). 假定 N, Xi, Xs,… 彼此 独立 , 即 这 些 随 机 变量 的 任意 有 限 子 集 都 
是 独立 的 . 

下 面 我 们 记 E[X] 和 var(X) 分 别 为 X; 的 公共 的 均值 和 方差 . 我 们 想 要 求 出 
Y 的 均值 、 方差 和 和 矩 母 函数 . 我 们 使 用 的 方法 为 先 给 定 一 个 条 件 N = n, 这 样 我 们 
就 将 情况 转化 为 常见 的 情况 : 求 固定 数目 随机 变量 和 的 问题 

确定 某 非 负 整 数 n. 随机 变量 XI 十 …+Xr 与 N 独立 . 由 此 可 知 ， Xi 十 … 十 XX 
与 事件 {N = n} 相互 独立 . 因此 ， 


EIYIN =n]=E[Xi+:..+ XN|IN =] 
=E[Xi+...+ Xn,IN=n] 
=E[X1 ee XX | 
=nE[X] 


这 对 于 任意 非 负 整数 ”都 成 立 . 因此 


EIYIN] = NE[X]. 
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使 用 重 期 望 法 则 , 有 


EIZ] =EIEIYIN]] = EINE[X) = EREIV] 


类 似 地 ， 
var(y|IN =n)=var(Xi+...+ XNIN =n) 
=var(Xi 十 十 下 
=nvar(X). 


因为 这 对 任意 非 负 整数 n 都 是 成 立 的 , 随机 变量 var(Y|N) 等 于 Nvar(X). 我 们 现 
在 运用 全 方差 法 则 得 


var(Y)=E[lvar(Y|N)| + var(E[YIN]) 


ElNvar(X)| + var(NEIX)] 


] 
=E[N]jvar(X) + (E[X)])2var(N). 


和 矩 母 函数 的 计算 和 上 面 的 计算 类 似 ， 基 于 条 件 N = n 的 Y 的 矩 母 函 数 为 
Eles |N = mn]. 但 是 , 基于 N = 的 条 件 ,Y 是 独立 随机 变量 Xi,… , X 的 和 , 且 


Ele YIN =n]=Ele’*!...e XN|N =n] 


这 里 Mx(s) 为 X; 的 矩 母 函 数 (对 于 任意 人 . 运用 重 期 望 法 则 , Y 的 (无 条 件 ) 矩 
坪 函 数 为 


n=1 
与 下 列 公式 相对 照 
My(s) = Elesw] = 》 (es)"pw(m)， 
n=1 
可 见 My(s) 和 Mw(s) 形式 完全 相同 , 或 者 等 价 地 , 将 MN(s) 的 表达 式 中 所 有 es 


(s 
用 Mx(s) 将 换 即 可 得 到 My(s). 
下 面 总 结 推导 出 的 性 质 如 下 . 
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随机 数 个 相互 独立 随机 变量 之 和 的 性 质 
记 XX1, 义 2,… 为 均值 E[X] 方差 var(X) 的 同 分 布 随机 变量 . 记 N 为 取 值 于 
非 负 整 数 的 随机 变量 . 我 们 假定 上 述 所 有 变量 相互 独立 , 下 面 考虑 变量 和 


Y=X1 二 +…: 二 XN. 


那么 : 
e ElY] = E[X]EIN]. 
® var(Y) = var(X)EIN] + (E[X|])?2var(N). 
。 矩 母 函数 My(s) 可 由 计算 矩 母 函 数 MN(s) 的 公式 得 到 , 将 其 中 的 es 全 
部 替换 成 Mx(s) 即 可 . 


例 4.34 ”一 个 遥远 的 村 庄 有 三 家 加 油 站 . 每 家 加 油 站 在 任意 一 天 营业 的 概率 都 是 
1/2, 而 且 各 家 的 营业 与 否 都 是 相互 独立 的 . 各 家 加 油 站 的 汽油 存量 是 相互 独立 的 
随机 变量 , 其 分 布 都 是 0 到 1 000 加 仓 之 间 的 均匀 分 布 . 我 们 想 要 刻画 营业 的 加 油 
站 汽油 存量 总 和 的 概率 分 布 规律 . 

营业 加 油 站 的 数目 N 是 服从 p= 1/2 的 二 项 随机 变量 , 相应 的 矩 母 函 数 为 


My(s) = (1 -pp = (1 +"). 


每 家 营业 的 加 油 站 的 汽油 存量 的 相应 矩 母 冰 数 Mx(s) 为 


1000s _ 1 


1000s 


汽油 存量 总 和 YY 的 相应 算 母 函数 可 通过 Mw(s) 来 计算 , 把 MN(s) 公式 中 的 es 蔡 
换 成 Mx(s) 即 可 , 即 有 


Mx(s) 一 


1 e1000s _1、3 
J 人 10005 ) : 

例 4.35 (个 数 服从 几何 分 布 的 独立 指数 随机 变量 之 和 ) 简 为 买 一 本 《远大 前 程 》 
的 书 逛 了 很 多 家 书店 . 每 家 书店 有 这 本 书 的 概率 都 是 p, 且 与 其 他 书店 相互 独立 . 得 
任意 一 家 书店 , 简 停 留 的 时 间 都 是 随机 变量 , 服从 参数 为 入 的 指数 分 布 , 直到 她 找 
到 这 本 书 或 者 她 肯定 这 家 书店 没有 这 本 书后 才 离 开 . 假定 简 会 一 直 和 逛 下 去 直到 她 
买 到 这 本 书 , 且 她 在 每 家 书店 停留 的 时 间 与 其 他 任何 事情 都 独立 . 我 们 希望 求 出 简 
得 书店 的 时 间 总 和 的 均值 、 方差 和 概率 密度 函数 . 
简 和 逛 的 书店 数目 NN 服从 参数 为 p 的 几何 分 布 . 因此 , 在 书店 中 花费 的 总 时 间 

Y 是 NN 个 独立 同 分 布 指 数 随机 变量 Xi X2,……… ,XN 的 和 , 其 中 变量 X; 服从 指数 
分 布 , 参数 为 入 我 们 有 
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几何 分 布 和 指数 分 布 随 机 变量 的 方差 公式 , 得 到 


Gi 


var(Y) = E[N]var(X) + (EI[X])2var(N) = > ， | 


XY XN op 一 》X272 
为 得 到 算 母 函数 My(s), 首先 有 
入 s 
Mx(s) = Ns Mn(s) = Te 
将 MN(s) 公式 中 每 个 es 都 换 成 Mx(s), 即 得 
DA 
Mx(s) 入 一 5 
My(s)=— 2 = 
1—(1—p)Mx(s) 1= (Ws 
一 5 
经 过 化 简 可 得 > 
My(s)=—2 . 
DA 一 5 


这 就 是 服从 参数 为 p 的 指数 随机 变量 的 算 母 函数 , 所 以 ， 


fy(y) 一 pMe PY, V 之 0. 


这 个 结果 很 令 我 们 惊讶 , 因为 定数 n 个 独立 指数 随机 变量 和 反而 不 服从 指数 分 布 . 
例如 , 当 n= 2 时 , 变量 和 的 矩 母 函数 为 (A/( 和 一 s)2, 这 与 指数 随机 变量 的 和 矩 母 函 
数 不 相 符 . 
例 4.36 (个 数 服从 几何 分 布 的 独立 几何 随机 变量 之 和 ) 本 例 是 与 前 例 对 应 的 一 
个 离散 类 型 . 我 们 记 N 服从 参数 为 p 的 几何 分 布 . 同时 记 每 个 随机 变量 X 服从 参 
数 为 g 的 几何 分 布 . 假定 这 些 随机 变量 都 是 独立 的 . 记 节 = 久 十 … 十 Xn, 我 们 有 


= qe” 
1—(1—g)es. 


为 了 计算 My(s), 先 从 计算 Mn(s) 的 公式 入 手 , 并 且 将 公式 中 出 现 的 es 都 用 Mx(s) 


Mx(s) 


pMx(s) 
UA 
经 过 计算 , 有 , 
My(s) a pqe 


这 样 即 推断 出 了 服从 参数 为 pg 的 几何 分 布 . 
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算 方 法 . 


么 可 以 通过 特殊 的 公式 来 直接 计算 概率 密度 函数 . 我 们 同时 也 考虑 了 两 
数 9(X,Y) 的 概率 密度 函数 的 计算 问题 . 特别 地 , 我 们 
的 卷 积 公式 . 
了 协 方差 和 相关 系数 的 概念 ， 
的 指标 . 协 方差 、 相关 系数 都 可 
二 乘 估计 方法 5 


机 变量 函 
机 变量 和 的 概率 和 9 


之 间 的 关系 大 小 
总 方 送 . 它们 在 8.4 节 
在 4.3 节 , 我 们 重新 考虑 关于 条 件 的 话题 


在 本 草 , 我 们 学 习 了 很 多 内 容 . 这 上 


在 41 他 ， 我 们 介绍 了 一 


NI 


Ne 


4.6 


个 连 绢 


在 4.2 节 , 我 们 介 乡 


的 线性 最 小 


起 随机 变量 和 


6 题 ， 


小 结 和 讨论 


我 们 总 结 一 下 其 中 的 一 些 重点 . 
的 函数 g(X) 的 概率 密度 函数 的 计 
用 分 布 函数 的 概念 非常 有 用 . 特别 地 , g(X) 的 密度 函数 是 通过 计算 它 
分 布 函数 , 然后 对 其 进行 微分 而 得 到 的 . 在 很 多 情况 下 , g(X) 是 严格 单 


的 
周 函 数 , 那 


i 三 
Jy 


它们 都 是 


出 两 个 独立 随 


量化 两 个 随机 变量 
以 用 于 计算 相关 的 随机 变量 和 的 
P 也 会 大 有 作为 . 
目的 是 导出 条 件 期 望 和 条 件 方差 的 


[下 


-二 )， 


法 则 . 


在 4.4 节 , 我 们 介 
给 定 


过 来 , 我 们 指出 
定 的 . 对 于 币 用 的 随机 变量 , 可 利 月 


用 工具 . 对 条 件 期 望 ; 
也 有 自己 独特 的 


一 个 矩 母 函数 ， 


进行 了 大 量 的 研究 逢 


与 这 个 外 


分析， 结果 表明 条 件 
期 户 和 方差 . 我 们 推导 了 许多 性 质 , 包括 重 


发 现 矩 母 函 数 有 以 下 很 多 有 用 的 用 途 : 


到 其 


和 矩 母 沙 数 的 乘积 ， 


E 态 ( 泊 松 ) 分 布 ; 


(a) 随机 变量 的 和 矩 母 函数 提供 了 一 种 计算 随机 变量 矩 的 捷径 ; 
(b) 两 个 独立 随机 变量 和 的 和 矩 母 函 数 等 于 它们 各 自 

用 来 说 明 两 个 独立 正 态 ( 泊 松 ) 随机 变量 的 和 也 是 1 
(c) 矩 母 函数 可 以 用 来 确定 个 数 为 随机 数 的 

他 的 方法 是 不 可 能 做 到 这 一 点 的 . 


最 后 在 4.5 节 


和 和 矩 母 函 数 的 计算 公式 , 这 其 中 综合 运 


4.1 节 


随机 变量 


中 , 我 们 推导 出 个 数 为 随机 变量 上 


习 


函数 的 概率 密度 函数 


题 


的 独立 随机 变量 和 的 均值 、 
用 了 4.3 节 和 4.4 节 中 的 方法 . 


个 连续 随 


期 望 可 视 为 随机 变 
期 望 法 则 和 


全 方差 


绍 了 随机 变量 的 矩 母 函数 以 及 算 母 函数 是 怎么 算出 来 的 . 反 
E 母 函数 相关 联 的 随机 变量 
昌 矩 母 冰 数 表 碍 


时 的 分 布 是 唯 
相应 的 矩 母 函数 . 我 们 


个 性 质 


随机 变量 和 的 分 布 ( 见 4.5 节 ), 其 


方差 


1. 如 果 X 是 一 1 到 1 之 间 的 均匀 随机 变量 , 求 出 VIX| 和 一 ln|X| 的 概率 密度 函数 . 


hi 
融 


3. 试 


. 试用 X 的 概率 密度 
均匀 分 布 时 , eX 
六 的 概率 密度 函 


函数 来 表示 er 


的 概率 密度 函数 . 然后 求 出 当 XX 服从 [0,1] 


数 来 表示 |XX|!3” 和 |X|1/4 的 概率 密度 函数 . 


区 间 的 


10. 


11. 


12. 


13. 


14. 


15. 


关 


城 铁 从 早上 6:00 开始 , 每 隔 15 分 钟 到 达 你 家 附近 的 车 站 . 你 每 天 早晨 在 7:10 到 7:30 之 


间 的 某 时 刻 到 达 车 站 . 设 到 达 时 间 为 一 个 随机 变量 ， 


其 分 布 已 知 ( 见 第 3 章 中 例 3.14 的 


分 布 ). 记 X 为 你 到 达 车 站 的 时 刻 与 7:10 之 间 的 时 间 


的 概率 密度 函数 . 


概率 密度 函数 . 


长 度 (单位 ; 分 钟 )， 记 六 为 你 上 


车 之 前 需要 等 待 的 时 间 . 试用 X 的 分 布 函 数 来 表示 Y 的 分 布 函数 , 然后 求 导 , 计算 Y 


设 X 和 了 是 相互 独立 的 随机 变量 , 均 服 从 [0,1] 的 均匀 分 布 , 求 | 和 X 一 Y| 的 分 布 函数 和 


在 笛 卡 儿 坐 标 系 中 , 设 (X,Y) 是 在 三 点 (0,1)、(0, 一 1)、(1,0) 围 成 的 三 角形 内 均匀 分 布 


的 随机 点 , 求 出 |X 一 Y| 的 分 布 函数 和 概率 密度 函数 ， 


从 区 间 [0,1] 中 随机 地 、 独 立地 、 均匀 地 选 出 两 个 点 , 证 明 这 两 个 点 之 间距 离 的 期 望 值 是 


1/3. 

设 X 和 YY 是 相互 独立 的 随机 变量 , 均 服从 参数 为 和 
率 密度 函数 . 
再 次 考虑 例 4.9, 但 是 假设 X 和 Y 分 别 服从 参数 为 和 
的 概率 密度 函数 . 


的 指数 分 布 , 求 Z = XX 十 Y 的 概 


和 的 指数 分 布 , 求 Z = 二 六 一 Y 


设 X 和 了 是 相互 独立 的 随机 变量 , 它们 的 分 布 列 如 下 : 


0， 其 他 ; 


ao 着 7 一 123 


请 用 卷 积 公式 计算 Z = 和 十 Y 的 分 布 列 . 


1/2， 若 y=0， 
Jj1/3， 帮 y=1， 
”Ww6， 若 y=2， 

0， ”其 他 , 


请 用 卷 积 公式 证 明 : 两 个 分 别 服 从 参数 为 入 和 的 泊 松 分 布 的 随机 变量 之 和 仍然 是 泊 


松 分 布 , 其 参数 为 入 十 . 
设 X、Y、2 是 服从 区 间 [0,1] 的 均匀 分 布 的 独立 随机 


变量, 求 和 上 + 天 十 2 的 概率 密度 


区 间 中 点 (a 十 0)/2 对 称 . 设 X 和 


设 一 个 概率 密度 函数 只 在 区 间 [a, 9] 上 取 正 值 , 旦 关于 


Y 相互 独立 , 且 具 有 这 样 的 概率 密度 函数 . 如 果 已 经 计算 出 X +Y 的 概率 密度 函数 , 如 


何 计算 X ~ 了 的 概率 密度 函数 . 


竞争 型 指数 分 布 . 设 两 蒂 灯 泡 的 寿命 X 和 YY 相互 独立 , 且 分 别 服从 参数 为 入 和 j 的 指 


数 分 布 . 则 首先 用 坏 的 时 间 是 


Z = min{X,Y}. 
试 证 明 : 2 也 是 服从 指数 分 布 , 参数 为 和 十. 
柯 西 随机 变量 


(a) 设 久 是 一 1/2 与 1/2 之 间 均匀 分 布 的 随机 变量 ， 


数 是 
1 


证 明 Y = tan(xX) 的 概率 密度 函 


户 () = 一 一 一 ， 一 co<y< co. 


GT 十 2) 
(Y 称 为 柯 西 随机 变量 .) 
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(b) 设 Y 是 柯 西 随机 变量 , 设 X 是 位 于 一 x/2 和 /2 之 间 的 角度 数 , 满足 tan(X) =Y. 

解 (a) 首先 注意 到 YY 是 连续 的 且 关 于 X 严格 递增 的 函数 . 当 X e [一 1/2,1/2] 时 ,六 
的 取 值 空间 位 于 -ce 和 oo 之 间 . 所 以 对 任意 实数 y， 

Py(y) =P(Y < =P(tan(rX) < =P(aX < tan ty) =3+ itan!y, 
最 后 一 个 等 式 是 运用 了 X 是 -1/2 与 1/2 之 间 均 匀 分 布 的 随机 变量 的 分 布 函数 的 
性 质 . 所 以 , 通过 求 导 , 并 利用 公式 d/dy(tan-1y) = 1/(L 二 人 扫 D), 我 们 可 以 得 到 : 对 
任意 的 实数 y， 
fy(y) = RT TF) 
(b) 首先 计算 X 的 分 布 函数 , 然后 求 导 就 可 以 得 到 其 概率 密度 函数 . 对 任意 的 ~x/2 < 


16.” 


x < 7/2, 我 们 有 


P(X<7x)= P(tan !Y < 7) 
= P(Y < tanz) 


1 


1 2 
tan! 
A 


P(X < x) 求 导 , 可 
值得 注意 的 是 , 柯 西 分 布 的 一 个 有 趣 的 性 质 是 


y 


1 Rs 
区 ./ 一 co 


2 


Er 


tanz 


1 
(T+ /2). 


当 z < 一 Xx/2 时 , P(X < 7) = 0, 而 当 z > /2 时 , P(X < zx) = 1 对 分 布 函数 
以 看 出 X 的 分 布 是 在 区 间 [一 x/2, x/2] 上 的 均匀 分 布 . 


i RI 2 一 四 5 


尽管 分 布 关于 0 点 对 称 . 


这 个 性 质 很 容易 验证 . 所 以 柯 西 分 布 没 有 
关于 连续 变量 期 望 的 定义 的 备注 . 


期 望 值 ， 


见 3.1 节 中 


两 个 独立 正 态 随机 变量 的 极 坐标 . 设 X 和 YY 是 独立 日 


的 标准 1 


E 态 随机 变量 . 对 (X,Y) 可 


二 


以 使 用 极 坐 标 来 描述 , 记 R > 0 和 夹 角 @ 


[0, 27], 则 


X= ReosO, Y= Rsing. 


(a) 证 明 9 在 


2 
一 2 
一 re /2, 


Jr 


(b) 证 明 RR 的 分 布 是 参数 为 1/2 的 指数 分 布 . 


葡 间 [0, 2z] 均匀 分 布 , R 具有 概率 密度 函数 


7 过 0， 


并 且 RR 和 8 相互 独立 . (随机 变量 RR 通常 称 为 瑞 利 分 布 .) 


注意 , 利 
和 指数 分 布 样本 来 产生 . 


该 题 的 结论 , 我 们 可 以 看 出 , 正 态 分 布 的 随机 样本 可 以 通过 独立 均匀 分 布 样本 
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解 (a) X 和 YY 的 联合 概率 密度 函数 是 


fxy (rx,y) = fx(x)fy(y) = ee 


现在 我 们 来 求 R 和 © 的 联合 分 布 . 固定 + > 0 和 9 € [0,2x]. 定义 集合 4 是 点 
(z,y) 的 集合 : 点 的 极 坐 标 (7,0) 满足 0< 7<7, 且 0<60<0. 注意 , 集合 4 是 以 
7 为 半径 , 夹 角 为 0 的 扇形 . 所 以 


Fre(r,0) = P(R<r,O<0)= P(X,Y)e A) 


0 他 
于 / | exp(— (22 +)/2)drdy = 工 1 exp( 一 天 /2)Fdrd5 
27 .joyea4a 27 Jo Jo 


最 后 一 个 等 式 利 用 了 极 坐标 的 转换 . 求 导 , 可 得 


二 O02 Fr,el”, 0) Se eS 


fr,e(", 0) Dr00 2 


7 > 0,0 € [0,27l. 


2 
总 全 二 / 0 
0 


foin(Oln) = Se 去， 

因为 © 的 条 件 概率 密度 函数 Join(glr) 与 及 的 值 无 关 , 所 以 , 它 必 与 无 条 件 概率 密 
度 函数 fo 是 一 样 的 .特别 地 ,jxetr,b) = fa(")fe(0), 所 以 玉 与 9 是 相互 独立 
的 

(b) 记 上 >0. 我 们 有 


0 € [0, 27l. 


PCR SW = PRS = 


re /2dr = / e “du = e™ /2, 
Vt t/2 


这 里 我 们 运用 了 变量 蔡 换 v = r?/2. 求 导 可 得 


1 
2(t) = -et/2, +t>0. 
2 


4.2 节 ” 协 方差 和 相关 


17. 假设 随机 变量 X 和 YY 具有 相同 的 方差 , 证 明 : X +Y 与 X 一 了 不 相关 . 
18. 假设 四 个 随机 变量 W、X、Y、2 满足 


E[W] = E[X] = E[Y] = EIZ| =0, 


var(W) = var(X)= var(Y) = var(Z) = 1, 


假设 W、XX、Y、2Z 相互 之 间 两 两 不 相关 . 计算 相关 系数 p(R,S) 和 p(R,T), 这 里 R= 
W+X、S=X+Y.T=Y+Z2. 
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19. 假设 随机 变量 X 满足 


ELX] = 0，ELX2?] = 1，ELX3] = 0，EILX9] = 3. 


定义 新 的 随机 变量 


Y=a+bX+cexX?. 


计算 相关 系数 p(X,Y). 
20.” 施 瓦 兹 不 等 式 . 证 明 对 任意 的 随机 变量 X 和 了 均 有 


(EI[IXY])? < EI[X*]E[Y?]. 


解 ”假设 E[Y?] 关 0, 否则 , P(Y = 0)=1, 有 EIXY]=0, 所 以 不 等 式 成 立 . 我 们 有 


E[XY] 


0<E &: BY 号 
_ 2 » EIXY]| (EI[XY])? ,2 
ox -2 + CY 
_RIx2l BLXY] (E[XY])? va 
EIX2?] -2 By E[XY]+ Dy) E[Y?] 
_ Rbx2l (ELEXY])” 
EX ElY3] 
即 ，(EIXIZ)> < EI[X*]E[Y?]. 
21.” 相关 系数 . 考虑 随机 变量 X 和 Y 的 相关 系数 
cov(X,Y) 
人 
A ) Vvar(X)var(Y) 


并 假定 它们 的 方差 为 正 . 证 明 : 

(a) |p(X,Y)| < 1. 提示 : 用 上 题 的 施 瓦 效 不 等 式 . 

(b) 如 果 Y 一 E[Y] 是 匀 一 E[X] 的 正 (或 负 ) 倍数 ,那么 p(X,Y) = 1( 或 者 p(X,Y) = 一 1 
相应 地 ). 

(ce) 如 果 p(X,Y) = 1( 或 者 p(X,Y) = 一 1), 那么 , Y 一 E[Y] 概率 为 1 地 为 XX 一 E[X] 
的 正 (或 者 相应 地 为 负 ) 倍数 . 

解 (a) 记名 = XE[X] 以 及 Y=Y 一 E[Y]. 用 施 瓦 效 不 等 式 , 得 到 


2 _ _(E[XY)? 
(C07) = RE < 
所 以 有 |p(X,Y)| < 1 
(b) 如 果 立 = aX, 那么 
p(X,Y) = E[XaX| a 
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(c) 如 果 (p(X,Y))? = 1, 那么 由 题 20 可 得 
|(x_ PRY] Ex 237 gy | ERY) y: 
ElY?] | ElY?] (BLY?])? 
=E[X"] — 2 YY + EEY) pry 
ElY? CE] 
a [X2] (ELXY])? 
E[Y?] 
=E[X?](1 — (p(X,Y))’) 
=0. 
因此 , 概率 为 1 地 , 随机 变量 
ey 
E[Y?] 
等 于 0. 由 此 得 到 , 概率 为 1 地 ， 
-cm 
E[Y? 已 [Y?] 
即 , 和 了 的 倍数 关系 的 正 负 号 由 p(X,Y) 决定 
4.3 节 ”条 件 期 望 和 条 件 方差 
22. 设 一 个 赌 徒 每 次 赢 或 输 的 概率 分 别 为 p 和 1 一 p, 而 且 每 次 输赢 与 以 前 独立. 当 > 1/2 
时 , 一 个 流行 的 赌博 方法 ( 称 为 凯利 策略 ) 是 每 次 赌 上 当前 资产 的 2p 一 1 部 分 . 设 初 始 
资产 为 z 元 , 运用 凯利 策略 , 计算 经 过 n 次 赌博 之 后 资产 的 期 望 值 
23. 帕 特 和 纳 特 在 约会 , 他 们 所 有 的 约会 都 在 晚上 9 点 以 后 . 纳 特 总 是 在 9 点 的 时 候 到 达 ， 
而 由 特 比较 散漫 , 她 到 达 的 时 间 是 均匀 分 布 在 8 点 和 10 点 之 间 的 . 记 和 是 8 点 和 帕 特 
到 达 时 间 的 间隔 时 间 . 如 果 帕 特 在 9 点 之 前 到 达 , 他 们 的 约会 将 持续 3 小 时 . 如 果 帕 特 
在 9 点 以 后 到 , 他 们 的 约会 持续 的 时 间 是 均匀 分 布 在 0 和 3-X 小 时 之 间 的 . 他 们 的 约 
会 在 他 们 见面 后 开始 . 当 帕 特 迟 到 的 时 候 , 纳 特 会 很 生气 , 并 且 会 在 他 们 的 第 二 次 约会 由 
特 迟 到 多 于 45 分 钟 的 时 候 结束 他 们 的 关系 . 所 有 的 约会 都 是 相互 独立 的 
(a) 纳 特等 待 帕 特 的 小 时 数 的 期 望 是 多 少 ? 


期 望 是 多 少 ? 


(b) 一 般 约会 持续 时 间 的 


24. 


(c) 在 他 们 分 手 之 前 他 们 约会 次 数 的 期 望 是 多 少 ? 

一 位 退休 教授 到 办 公 室 的 时 间 服 从 早上 9 点 到 下 午 1 点 的 均匀 分 布 , 然后 他 做 一 件 工作 ， 

完成 这 个 任务 后 就 离开 办 公 室 . 这 项 任务 完成 的 时 间 服 从 参数 为 和 (y) = 1/(5 一 y) 的 指 

数 分 布 , 这 里 y 是 9 点 和 教授 到 达 时 刻 的 时 间 段 长 度 . 

(a) 教授 完成 任务 需要 时 间 的 期 望 是 多 少 ? 

(b) 任务 完成 时 刻 的 期 望 是 多 少 ? 

(c) 现在, 换 一 种 情况 . 这 位 教授 除了 完成 他 本 人 的 任务 外 , 他 还 有 一 个 博士 生 , 这 个 学 
生 会 在 指定 的 一 天 去 找 教授 , 学 生 去 找 他 的 时 刻 服从 从 早上 9 点 到 下 午 5 点 的 均匀 
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25.” 


26.” 


27.” 


分 布 . 如 果 这 个 学 生 没有 找到 教授 , 就 离开 并 且 不 回来 了 . 如 果 找 到 了 教授 , 他 将 会 
和 教授 一 起 待 一 定 的 时 间 , 这 段 时 间 服 从 0 到 1 小 时 的 均匀 分 布 . 教授 总 在 他 自身 
的 任务 上 花 同样 的 时 间 , 不 管 他 是 否 被 这 个 学 生 打扰 . 这 一 天 , 教授 和 学 生 在 一 起 的 
时 间 的 期 望 是 多 少 ? 教授 离开 办 公 室 的 时 间 的 期 望 是 多 少 ? 

证 明 : 对 任意 的 离散 型 或 者 连续 型 随机 变量 X, 以 及 另 一 个 随机 变量 Y 的 任意 函数 g(Y) 

都 有 了 [X9g()IY] = g(Y)ELXIY]. 

解 ”假设 X 是 连续 的 . 由 第 3 章 的 条 件 期 望 公式 可 得 


De be Ey ee 


=90%) {sfxiv(aly)de 
= g(Y EIXIY = Yl. 


这 就 证 明了 随机 变量 E[Xg(Y)|Y] 的 每 一 个 实现 值 E[Xg(Y)|Y = yl 与 随机 变量 g(Y) 
E[X|Y] 的 每 一 个 实现 值 g(y)E[X|Y = y| 总 是 相等 的 , 所 以 这 两 个 随机 变量 也 总 是 相等 
的 . 
对 X 是 离散 的 情形 , 证 明 类 似 . 
X 和 YY 是 独立 的 随机 变量 . 用 全 方差 法 则 证 明 


var(XY) = (E[X])2var(Y) + (E[Y])?var(X) + var(X)var(Y). 


解 ” 设 ZF = XY. 全 方差 法 则 说 明 


var(Z) = var(E[Z|X]) + Elvar(Z|X)]. 


我 们 有 
E[Z|X] = ELXY|X] = XE[Y), 
所 以 
var(E[Z|X]) = var( XE[Y]) = (E[Y])?var(X). 
进一步 地 ， 
var(Z|X) = var(XY|X) = X2var(Y|X) = Xvar(Y), 
所 以 
Elvar(Z|X)] = E[X*]var(Y) = (BE[X])?var(Y) + var(X)var(Y). 


结合 前 面 的 关系 , 我 们 得 到 


var(XY) = (E[X])?var(Y) + (E[Y])?var(X) + var(X)var(Y). 


我 们 投掷 n 次 不 均匀 的 硬币 , 且 每 次 正面 朝 上 的 概率 为 g, g 值 的 大 小 是 随机 变量 Q 可 

能 的 取 值 , Q 的 均值 是 j, 方差 o? > 0. 设 Xi 为 第 ;次 投掷 结果 的 伯 努 利 随机 变量 ( 即 
第 i 次 投掷 硬币 正面 朝 上 ,Xi = 1, 否则 Xi = 0). 假设 Xi1,… ,Xn 在 给 定 Q = 9 时 ， 
是 条 件 独立 的 . 记 X 为 n 次 投掷 硬币 正面 朝 上 的 总 次 数 . 
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(a) 运用 重 期 望 公式 , 计算 ELXi] 和 EB[X]. 

(b) 计算 cov(XisX)). XI,… ,Xn 独立 吗 ? 

(c) 运用 全 方差 公式 计算 var(X) 并 运用 (b) 中 的 结果 来 验证 . 
解 (a) 运用 重 期 望 公 式 以 及 E[Xi|Q] = @， 


也 


EXil = 了 EXiO = EIQ] = /. 


因为 和 = Xi 十 … 十 Xn, 则 有 


EIX] = E[Xi] + :+ ELX,] = ny. 
(b) 当 i 关 7j 使 用 条 件 独立 假设 可 得 


EIXiX;|Q] = E[X;|Q]ELX;|IQ] = @’, 


E[XiX;] = E[E[X;X;|Q]] = EIQ™), 
所 以 
cov(Xi, X;) = ELXiX;] — EIXi]ELX;] = EIQ] — 1 = 07. 
因为 cov(Xi, XX;) > 0 所 以 Xi ,X 不 独立 . 
当 i = 7 时 , 注意 到 X? = Xi， 


(c) 运用 全 方差 法 则 和 X1,… , Xn 的 条 件 独立 性 , 我 们 有 


var(X) = Elvar(X|Q)] + var(E[X|Q]) 

[var (Xi + Xn|Q)] + var(E[Xi + :+ Xn|Q)]) 
InQ(1 — Q)] + var(nQ) 
= nE[Q — Q’] + nvar(Q) 


2 2\ 22 
WH 一 5 ) 二 ma 


=n( 
=m( 一 1 二 mn 一 1)c2. 


为 运用 (b) 中 的 结果 来 验证 上 式 , 计算 如 下 : 


var(X) = var( XI 十 :十 Xn) 


三 Svar(Xi) 十 > cov(Xi, Xi) 
Cs {(i,7)1iz7} 

= nvar(Xi1)+n(n— 1)cov(Xi, X2) 

= np pf) + n(n Do”. 
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28.” 二 维 正 态 分 布 的 概率 密度 函数 ,( 零 均值 ) 二 维 正 态 分 布 的 概率 密度 函数 具有 如 下 


式 


fx,y (x, y) = ce a(®Y), 


其 中 指数 部 分 的 函数 gq(z,y) 是 z 和 yy 的 二 次 多 项 式 ， 


0 
We TOY y 
q(x,y) i 


这 里 cx 和 cy 是 正常 数 , p 是 满足 -1 < p < 1 的 常数 ,c 是 归 一 化 常数 . 

(a) 配方 , 即 把 g(z,y) 写成 (az 一 By) 十), 其 中 Qa、B、Yy 是 常数 . 

(b) 证 明 X 和 YY 分 别 是 期 望 为 0 方差 为 cz 和 o3 的 正 态 分 布 . 

(c) 求 出 归 一 化 常数 c. 

(d) 证 明 在 给 定 Y = y 的 条 件 下 , X 的 条 件 概率 密度 函数 是 正 态 的 , 并 求 其 期 望 和 方 


(e) 证 明 X 和 了 的 相关 系数 是 p. 

(f) 证明 X 和 YY 的 相互 独立 的 充 要 条 件 是 它们 不 相关 . 

(g) 证 明 估 计 误 差 E[X|Y] 一 X 是 正 态 的 , 均值 为 0, 方差 为 (1 - po2)c2, 而 且 与 Y 是 独 
立 的 . 

解 (a) 可 将 g(x,y) 写成 下 面 的 形式 


q(x,y) = q1(Z,V) + gq2(Y)) 


(b) (a) 可 得 


fy(y) = a @— 1(2Y)6-92) dy = ce 2 @— 1(29) dy. 


0 


运用 变量 替换 到 


2 
az Pay 


“ye 


.| e9291(7,Y) dy = ozV1 一 2| e— /2dvu 一 azVI 一 02V2T. 


所 以 

f(y) = cro VI EVA 
这 就 是 均值 为 0 方差 为 o2 的 正 态 分布 的 概率 密度 函数 . 由 对 称 性 , 可 证 得 X 是 正 
态 的 . 


(c) Y 的 概率 密度 函数 的 归 一 化 系数 一 定 为 1/(V2rcy). 所 以 


coz V1 一 02V2T 二 1/(V2noy), 


从 而 
2rxoroyV1— 02 
(d) 因为 
最 1 —gi(z,y) ~g2(Y) 
fx,Y (X,Y) roroy VI" e ) 
和 
es 一 92(y) 
fy(y) ov ? 
所 以 
Jr yy) 1 | 
fxlY (Z|y) Fy) i i= = ep 202(1 — p53) 


对 任意 给 定 的 y, 这 是 均值 为 posy/0, 方差 为 oz(1 _ 六 ) 的 正 态 分 布 的 概率 密度 函 
数 . 特别 地 , 我 们 有 E[X|Y = 要 = (pos/ov)y 和 ELXIY] = (pgs /oy)Y 
期 望 公 式 和 重 期 望 法 则 , 可 得 


pp 


(e) 


E[XY] = E[E[XY|Y] 
= E[YE[X|Y]] 
= ElY (pos/0,)Y] 
= (poz/oy)E[Y] 
= powoy. 
所 以 相关 系数 p(X,Y) 是 


ep cov(X,Y) _ E[XY] Ee 


OzrOy OzrOy 


(f) 如 果 关 和 YY 不 相关 , 则 p= 0, 而 且 联 合 概率 密度 函数 满足 fx,y (zx,y) = fx (zx)fy(y)， 
所 以 X 和 了 独立 . 反之, 若 X 和 了 独立 , 则 它们 自动 不 相关 . 

(g) 从 结论 (d) 可 知 , 给 定 Y =y 的 条 件 下 , X 是 正 态 的 , 均值 为 BI[X|Y = yl, 方差 为 
(1 一 户 )o2. 所 以 , 给 定 Y = y 的 条 件 下 , 估计 误差 X = E[X|Y = 名 一 X 是 正 态 
的 , 均值 为 0, 方差 为 (1 一 户 )o2, 即 


Se 1 人 
fxlv (ly) - | 2(1 — p3)o3 } 
既然 X 的 条 件 概率 密度 函数 不 依赖 于 Y 的 值 y, 所 以 X 与 Y 独立 , 而 且 上 述 条 
件 概率 密度 函数 也 是 X 的 无 条 件 概率 密度 函数 . 
4.4 节 ”和 矩 母 函数 
29. 设 X 为 取 值 1、2、3 的 随机 变量 , 分 布 列 如 下 : 


1 1 1 
P(X=2)= P(X = 3)= -=. 
Xe 全 SS， 


P(X=1)= 


求 X 的 矩 母 函 数 并 且 用 它 得 到 前 三 个 矩 E[X]、E[X?]、E[X3]. 
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30. 计算 标准 正 态 随机 变量 X 的 E[X3] 和 卫 [X94] 
31. 计算 参数 为 和 的 指数 分 布 的 三 阶 、 四 阶 、 五 阶 甜 . 
32. 一 个 非 负 的 整数 随机 变量 X 有 以 下 两 个 表达 之 一 作为 它 的 矩 母 函 数 : 
(1) M(s) = ez Di 
(2) M(s) = ee -0 
(a) 解释 为 什么 这 两 者 中 的 有 一 个 表达 式 不 是 年 母 函 数 . 
(b) 用 真 矩 母 函 数 计 算 P(X = 0). 
33. 计算 具有 下 列 矩 母 函 数 的 连续 随机 变量 X 的 概率 密度 函数 : 
下 2 2 3 
es 
34. 设 一 个 足球 队 有 三 名 球员 , 轮流 罚 点 球 . 第 i 个 球员 跑 中 点 球 的 概率 为 pi, 而 且 与 其 他 
球员 是 相互 独立 的 . 设 每 个 球员 有 一 次 罚 点 球 机 会 , 记 X 为 三 名 球员 踢 球 完 后 中 中 的 总 
次 数 . 运用 卷 积 公式 计算 X 的 分 布 列 . 计算 X 的 矩 母 函数 , 然后 再 计算 X 的 分 布 列 . 
看 看 这 两 个 结论 是 否 一 致 . 
35. X 为 取 值 非 负 整数 的 随机 变量 , 并 且 具 有 和 矩 母 函数 
3 十 4e2s + 2e3s 
3 一 es 2 


这 里 c 是 一 个 常数 . 计算 E[X]、 px(1) 以 及 E[X|X 0]. 


Mx s)= 


36.X、Y、2 是 独立 的 随机 变量 , X 为 参数 为 1/3 的 伯 努 利 分 布 , Y 是 参数 为 2 的 指数 分 
布 , 2 是 参数 为 3 的 泊 松 分 布 . 
(a) 考虑 新 的 随机 变量 UV = XY + (1 一 匀 )2Z. 计算 U 的 矩 母 函数 . 
(b) 计算 22Z +3 的 矩 母 函 数 . 
(c) 计算 YY 十 2 的 矩 母 函 数 . 

37. 一 个 比萨 店 提供 n 种 不 同 的 比萨 饼 , 在 一 段 时 间 内 , 有 KK 个 顾客 来 消费 , 其 中 K 是 取 
非 负 整数 的 随机 变量 , 且 已 知 其 矩 母 函数 是 Mx (s) = Ele**]. 每 个 顾客 订 一 种 比萨 饼 ， 
而 且 订 哪 种 的 概率 都 是 相同 的 , 与 其 他 顾客 是 独立 的 . 请 以 Mx(-) 来 表述 预定 的 比 芪 人 
的 种 类 数 的 期 望 . 

38.”X 是 取 值 为 非 负 整数 的 离散 随机 变量 . M(s) 是 X 的 矩 母 函数 . 


P(X = 0)= lim, M!(s). 


用 (a) 证 明 下 列 结果 : 如 果 X 是 服从 参数 为 n 和 p 的 二 项 分 布 的 随机 变量 , 我 们 

可 以 得 到 P(X = 0) = (1 一 p)”. 进一步 , 如 果 X 是 服从 参数 为 和 的 泊 松 分 布 的 随 

机 变量 , 我 们 可 以 得 到 P(X = 0) = e 、^. 

(c) 假设 X 已 知 为 只 取 大 于 或 者 等 于 已 知 整数 天 的 整数 . 运用 X 的 矩 母 函数 我 们 怎 
么 计算 P(X = )? 

解 (a) 我 们 有 


当 s 一 -co 时 , 所 有 es(F > 0) 趋向 于 0, 所 以 我 们 得 到 lim _M(s) =P(X =0). 
(b) 在 二 项 分 布 的 条 件 下 , 我 们 可 以 得 到 矩 母 函数 
AM(s) 三 (1 一 D 十 pe ) 
所 以 lim M(s) = 代 一 中 ”在 泊 松 分 布 的 条 件 下 , 我 们 有 


M(s) = 全 一 
所 以 im MT(s) = ee ~. 
(c) 随机 变量 世 = 和 一 天 只 取 非 负 整数 值 , 相应 的 矩 母 函数 是 My (s) = e-*M(s)( 参 
考 例 4.25). 因为 P(Y = 0) = P(X = 及 ,我们 从 (a) 得 到 ， 
P(X=E)= lim e *M(s). 


S 一 一 Co 


39.* ”均匀 随机 变量 的 矩 母 函 数 
(a) 计算 在 {a,a 二 1.… ,5} 上 均匀 分 布 的 整数 值 随机 变量 X 的 矩 母 函 数 
(b) 计算 在 区 间 [a 机 上 均匀 分 布 的 连续 随机 变量 X 的 生母 函数 
解 (a) X 的 分 布 列 是 


1 

一 一 一 -， 若 二 a,a 十 1,.… ,bb，, 

px(k)= 2 二 1 
0， 其 他 . 


和 矩 母 函数 为 


al 1 一 es 
(b) 我 们 有 


ee 人 ”一 候 


M(s) = Ele:*] = / jad = Bs 
40.” 假 设 离散 随机 变量 X 的 和 矩 母 函数 有 下 列 形式 


MO = He 


这 里 A(t) 和 B(t) 都 是 t 的 多 项 式 . 假设 A(t) 和 B(t) 没有 共同 根 , 而 且 A(t) 的 次 数 比 
B(t) 的 小 . 假定 B(t) 的 所 有 根 是 绝对 值 大 于 1 的 互 蜡 非 零 实 根 . 那么 可 以 看 出 M(s) 
可 以 写成 下 面 形式 


Ql Qm 
M 一 .4 
(s) 1—ries 1—rmes 
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这 里 1/ri,… ,1/rm 是 B(t) 的 根 , 而且 当 守 = 1 ,mm 时 oa 是 等 于 im (1 一 


rie”)M(s) 的 常数 . 
(a) 证 明 X 的 分 布 列 为 


本 


注意 : 对 于 大 的 k, X 的 概率 密度 函数 可 以 通过 azr* 来 逼近 , 这 里 i 是 最 大 的 
lri|( 假 定 三 是 唯一 的 ) 的 相应 的 指标 . 
(b) 把 (a) 的 结果 推广 到 M(s) = ess 4(es)/Bfes) 的 情况 , 5 为 整数 . 
解 (a) 对 于 所 有 的 满足 条 件 |riles < 1 的 s, 我 们 有 
1 s 
1 — ries 


因此 ， 


-Det Se) + (Sar) + ee 


根据 矩 母 函 数 的 定义 , 我 们 得 到 


mm 

k 

一 QiTi 
$1 


对 于 所 有 的 大 > 0 成立 , 并 且 对 于 < 0, P(X = 有 ) = 0. 注意 如 果 系 数 a; 为 非 负 
实数 的 话 , 这 个 分 布 列 为 几何 分 布 列 的 混合 . 

(b) 在 这 种 情况 下 , M(s) 相当 于 和 拖 母 函 数 为 4(es)/B(es) 的 随机 变量 通过 平移 5 以 后 
所 得 到 的 矩 母 函数 (参考 例 4.25), 所 以 我 们 有 


> or， 车 k=bb+1,…， 


0， 其 他 . 
4.5 节 ”随机 数 个 相互 独立 的 随机 变量 之 和 
41. 在 某 一 确定 时 间 , 进入 电梯 的 人 数 服从 参数 为 和 的 泊 松 分 布 . 每 个 人 的 体重 都 是 相互 独 


42. 


立 的 , 并 且 服 从 100 磅 到 200 磅 之 间 的 均匀 分 布 . X; 是 第 i 个 人 超出 100 磅 部 分 与 100 
的 比值 , 例如 , 如 果 第 七 个 人 重 175 磅 , 那么 X7 = 0.75. Y 是 诸 X; 的 和 . 

(a) 求 Y 的 相关 算 母 函数 . 

(b) 用 和 矩 母 函数 计算 Y 的 期 望 值 . 
(c) 用 重 期 望 法 则 证 明 (b) 的 答案 

构造 一 个 个 数 为 随机 的 独立 正 态 随机 变量 之 和 为 非 正 态 的 例子 (即使 固定 数目 的 独立 正 
态 随 机 变量 的 和 是 正 态 随机 变量 ). 


Me 
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44. 


45.” 


一 个 摩托 车 手 过 四 个 红绿灯 ,过 每 个 灯 的 时 候 乡 


间 


模型 假设 为 均值 


时 间 


全 概率 定 下 


(a) 用 


率 . X 是 正 态 的 吗 ? 
(b) 把 X 看 作 个 数 为 随机 的 各 随机 变量 之 和 , 计算 X 的 相应 矩 母 函数 ， 


计算 下 列 随机 变量 和 的 


期 望 和 方差 : 


Y=Xi++:…+ XN, 


[ 灯 的 概率 都 是 1/2. 在 每 个 灯 等 待 的 时 
为 1 分 钟 、 标 准 差 为 1/2 分 钟 的 正 态 分 布 . X 是 在 红 灯 前 等 待 的 总 


计算 X 的 概率 分 布 函数 和 相应 矩 母 函数 , 并 计算 X 超过 四 分 钟 的 概 


其 中 N 自身 也 是 整数 随机 变量 的 和 , 即 
N =KI 十 … 十 天 MT， 
这 里 N, M, Ki K2,… ,Xi Xo 都 是 独立 的 随机 变量 ，N, M, Ki, K2,…. 是 取 整 数 
值 旦 非 负 的 随机 变量 ，K1, K2， 分 布 相 同 ， 具 有 相同 的 均值 E[K] 和 方差 var(K). 
Xi1, X2,.…. 也 县 有 相同 的 均值 E[X] 和 方差 var(X). 
(a) 用 E[M]、var(M)、E[IK]、var(K) 来 推导 E[N] 和 var(N). 
(b) 用 E[M]、 var(M)、E[IK]、var(K)、E[X]、var(X) 来 推导 E[Y] 和 var(Y). 
(c) 一 个 板 条 箱 里 有 M 个 纸 盒 ，M 服从 参数 为 p 的 几何 分 布 . 第 i 个 纸 愈 含有 Ki 个 


小 零件 ,Ki 服从 参数 为 /的 ; 


松 分 布 , 每 个 小 零件 的 重量 服从 参数 为 和 的 指数 分 
布 . 假定 所 涉及 的 随机 变量 都 是 独立 的 . 求 整个 箱子 的 总 重量 的 期 望 和 方差 


用 矩 母 函 数 方法 证 明 个 数 服从 泊 松 分 布 的 诸 独立 同 分 布 的 伯 努 利 随机 变 
分 布 . 
解 ” 记 NN 是 服从 参数 为 和 的 泊 松 分 布 的 随机 变量 . Xi(i = 1,… ，N) 
2 的 伯 努 利 随机 变量 . 令 

下 王 XI 十 :十 和 XN 


是 相应 的 和 . 工 的 矩 母 函数 通过 N 的 矩 母 


Xi 的 矩 母 函 数 为 


MN(s) 一 


Mx (s) — 


通过 X; 的 矩 母 函数 代替 es, 我 们 得 到 


函数 得 到 ，N 的 矩 母 函数 为 


入 (es 一 1 
eX 


1—p+pe’. 


Mi(s) =e*(! ?tre 1) 一 exp(e 一 9 


这 就 是 参数 为 Xp 的 泊 松 分 布 的 矩 母 函数 . 


量 之 和 服从 泊 松 
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在 本 章 里 , 我 们 讨论 随机 变量 序列 的 渐 近 性 质 . 设 Xi1,X2,… 为 一 个 独立 同 分 
布 的 随机 变量 序列 , 其 公共 分 布 的 均值 为 几 方差 为 02. 定义 


为 这 个 随机 变量 序列 的 前 n 项 之 和 . 本 章 的 极限 理论 研究 5,, 以 及 与 5,, 相关 的 变 
量 在 nn 一 co 时 的 极限 性 质 . 
由 随机 变量 序列 的 各 项 之 间 的 相互 独立 性 可 知 


var(Sn) = var(X1) + + var(Xn) = ma2 


所 以 , 当 n 一 co 时 , 5% 是 发 散 的 , 不 可 能 有 极限 . 但 是 样本 均值 
_ Xt Xn _ Sn 


Mn 
Nn nN 
却 不 同 . 经 过 简单 计算 就 可 以 得 到 
2 


E[M,] =m var0d) = 和 二. 
nN 


所 以 当 n 一 oo 时 , Mi 的 方差 趋 于 0. 也 就 是 说 ,Mn 的 分 布 大 部 分 就 必然 与 均值 
上 4 特别 接近 . 这 种 现象 就 是 大 数 定律 的 内 容 , 即 随机 变量 序列 M, 从 大 样本 意义 上 
看 , 收敛 于 X; 的 均值 六 按 通常 的 解释 , 当 样 本 量 很 大 的 时 候 , 从 X 抽取 的 样本 平 
均值 就 是 B[X], 大 数 定律 就 为 此 提供 了 一 个 数学 理论 基础 . 

下 面 考虑 另 一 个 随机 变量 序列 . 用 5 减 去 nn, 可 以 得 到 零 均值 随机 变量 序列 
Sn 一 ny, 然后 再 除 以 cvVm 就 得 到 随机 变量 序列 


_ Sn—nn 


ovVn 


Zn 


易 证 明 

ElZn|=0, var(Zn)=1. 
因为 Z 的 均值 和 方差 不 依赖 于 样本 容量 n, 所 以 它 的 分 布 既 不 发 散 , 也 不 收敛 于 
一 点 . 中 心 极限 定理 就 研究 Z, 的 分 布 的 渐 近 性 质 , 并 且 得 出 结论 : 当 n 充分 大 的 
时 候 , Z 的 分 布 就 接近 标准 正 态 分 布 . 


5.1 


马尔 可 夫 和 切 比 雪 夫 不 等 式 
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极限 理论 的 用 处 很 多 . 


(a) 从 理论 上 看 , 极限 理论 为 期 望 (或 概率 ) 和 独立 同 分 布 试验 序列 之 间 的 联系 


的 解释 


提供 了 合理 
(b) 极 


精确 方法 比较 , 为 了 了 解 5,, 的 性 质 , 精 古 
函数 , 但 是 在 n 充分 大 的 时 候 , 这 些 计 算是 
(c) 在 使 用 大 量 观测 数据 集 时 , 极限 理论 在 统计 


限 理论 提供 了 5;, 等 随机 变量 序列 当 样 本 量 ”充分 大 时 的 渐 近 性 质 . 与 
方法 需要 计算 S。 的 分 
非常 复杂 而 且 不 得 要 领 
呆 中 发 挥 主要 的 作 月 


布 列 或 概率 密度 


bea 


5.1 马尔 可 夫 和 切 比 雪夫 不 等 式 

本 节 介 绍 一 些 重要 的 不 等 式 ， 这 些 不 等 式 使 用 随机 变量 的 均值 和 方差 去 分 析 
事件 的 概率 . 在 随机 变量 X 的 均值 和 方差 易于 计算 , 但 分 布 不 知道 或 不 易 计 算 时 
这 些 不 等 式 就 非常 有 用 . 

首先 介绍 马尔 可 夫 不 等 式 . 粗略 地 讲 , 该 不 等 式 是 指 , 一 个 非 负 随机 变量 如 果 
均值 很 小 , 则 该 随机 变量 取 大 值 的 概率 也 非常 小 . 
马尔 可 夫 不 等 式 

设 随 机 变量 X 只 取 非 负 值 , 则 对 任意 a > 0， 

P(X a)< 2 


定 正 数 a, 定义 随机 变 


现在 来 证 明 马 尔 可 夫 不 等 式 . 固 


0， 若 X<w， 
Yo 
长 若 X >a. 
易 知 
1 
总 成 立 , 从 而 
ElYs] < ELX] 
男 一 方面 
ElYs]| = aP(Y, = a) = aP(X za), 
所 以 
aP(X > a) < EIX] 
( 见 图 5.1 给 出 的 马尔 可 夫 不 等 式 推导 过 程 示意 图 ). 


[a 
里 


Ya， 
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图 5.1 马尔 可 夫 不 等 式 推导 过 程 示意 图 . 图 (a) 是 非 负 随 机 变量 X 的 概率 密度 函数 . 图 (b) 
是 与 X 相关 的 随机 变量 Y 的 分 布 列 . 分 布 列 的 构造 如 下 : 把 X 位 于 0 和 a 之 间 的 
所 有 质量 都 赋值 于 点 0, 大 于 等 于 a 的 质量 都 赋值 于 点 a. 因为 所 有 的 质量 向 左 转移 ， 
所 以 期 望 必 然 减少 , 因此 


E[X|] > E[Ys]| = aP(Ys = a) = aP(X > a) 


例 5.1 设 X 服从 [0, 的 均匀 分 布 . 易 知 E[X] =2. 由 马尔 可 夫 不 等 式 可 得 


2 
=0.67, P(X>4)<7=0.5. 


WI 


2 
P(X>2)<3=1, P(X>3)< 


与 真实 概率 进行 比较 


P(X>2)=0.5, P(X>3)=0.25, P(X>4)=0. 


可 以 看 出 由 马尔 可 夫 不 等 式 给 出 的 上 界 与 真实 概率 相差 非常 远 . 

下 面 介绍 切 比 雪夫 不 等 式 . 粗略 地 讲 , 切 比 雪夫 不 等 式 是 指 如 果 一 个 随机 变量 
的 方差 非常 小 的 话 , 那么 该 随机 变量 取 远 离 均值 y 的 概率 也 非常 小 . 注意 的 是 : 切 
比 雪夫 不 等 式 并 不 要 求 所 涉及 的 随机 变量 非 负 . 


/ 


切 比 雪夫 不 等 式 
设 随机 变量 X 的 均值 为 iu 方差 为 o2, 则 对 任意 c > 0， 


2 


P(IX—u|>0< 2 


下 面 来 证 明 切 比 雪 夫 不 等 式 . 考虑 非 负 随 机 变量 (X 一 J)?. 令 a = 局, 使 用 马 
尔 可 夫 不 等 式 , 可 得 
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2 < XI 


P((X—1) >c 


注意 , 事件 |X 一 py]? > c2 等 价 于 事件 |X 一 k| 之 co, 所 以 


避 
oO 
P(X—H2>0=P(IX-H >0)< 


ee 式 的 时 候 也 可 以 不 使 用 马尔 可 夫 不 等 式 , 其 推理 如 下 . 不 
妨 设 X 是 连续 型 随机 变量 , 定义 函数 


0， 若 |z ee 加 < C， 
gz) = 本 
cC2， 石 Iz > ul 之 C. 


注意 , 对 任意 的 x, (z 一 1)? > g(x), 所 以 


pe 人 (2 —1)° fx(z)dz > a 


这 就 是 切 比 雪夫 不 等 3 
令 e= ha, 其 中 大 是 正 数 , 切 比 雪夫 不 等 式 的 另 一 个 版 本 是 ， 


o2 1 
P(X—h|> ko) < R= 1 

所 以 一 个 随机 变量 的 取 值 偏离 其 均值 倍 标准 差 的 概率 最 多 是 1/k?. 

切 比 雪夫 不 等 式 比 马 尔 可 夫 不 等 式 更 准确 , 即 由 切 比 雪夫 不 等 式 提供 的 概率 的 
上 界 离 概率 的 真 值 更 近 . 这 是 因为 它 利 用 了 X 的 方差 的 信息 . 当然 一 个 随机 变量 
的 均值 和 方差 也 仅仅 是 粗略 地 描述 了 随机 变量 的 性 质 , 所 以 由 切 比 雪夫 不 等 式 提供 
的 上 界 与 精确 概率 也 可 能 不 是 非常 接近 . 
例 5.2 ( 续 例 5.1)” 设 XX 服从 [0,4 的 均匀 分 布 . 现在 使 用 切 比 雪夫 不 等 式 来 给 出 
事件 |X 一 2| > 1 的 概率 上 界 . 显然 o? = 4, =2, 则 


汶 邮 


P(|IX—-2|>1)<—= 


由 于 概率 的 值 永 远 不 超过 1, 所 以 这 个 不 等 式 并 不 带 来 任何 信息 . 
现在 看 男 一 例子 , 设 X 服从 参数 入 = 1 的 指数 分 布 , 则 E[X] = var(X) = 1. 对 
任意 的 c > 1, 使 用 切 比 雪夫 不 等 式 可 得 


1 
(c—1)> 


而 真实 概率 是 P(X > c) =e-“. 可 以 看 出 由 切 比 雪夫 不 等 式 给 出 的 上 界 比较 保守 . 


P(X>0)=P(X-1>c-1)<P(X-1>c-1)< 
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例 5.3 ( 切 比 雪夫 不 等 式 的 上 界 ) ” 设 随 机 变量 X 取 值 空间 是 [o, 中 , 现在 我 们 证 明 
02 < (一 oa)2/4. 因此 , 如 果 o? 未 知 , 我 们 就 可 以 用 上 界 (5 一 a)?/4 来 代替 切 比 雪 
夫 不 等 式 中 的 o2, 即 


豆 


b i a 了 Lv 
中 人 9 对 任意 的 e > 0 成 立 


现在 来 证 明 o? < (5 一 a)?/4. 对 任意 的 常数 y, 我 们 有 


P(z—u|z0)< 


EI((X —”)°]= ELX’] -2E[X]Y+7Y’, 
而 且 该 二 次 多 项 式 在 y = E[X] 处 达到 极 小 . 因此 对 任意 的 常数 Y, 我 们 有 


02 = EI(X — E[X])’] < E[(X 一 人 9 


今 y= (a 十 0)/2, 可 得 


a a 
这 2 
中 等 式 可 以 通过 直接 计算 来 验证 , 最 后 一 个 不 等 式 成 立 的 原因 是 : 当 x € [ab 时 


(zr—a)(z—b)<0 


上 界 o? < (5 一 a)?/4 可 能 会 非常 保守 , 但 是 在 对 X 的 信息 缺乏 更 深 的 认识 
的 情况 下 , 这 个 上 界 很 难 更 加 精确 . 当 X 各 以 1/2 的 概率 只 取 极 端 值 a 和。 时 ， 
02 = (b— a)2/4. 


I 


5.2 ” 弱 大 数 定律 


弱 大 数 定律 是 指 独立 同 分 布 的 随机 变量 序列 的 样本 均值 , 在 大 样本 的 情况 下 ， 
以 很 大 的 概率 与 随机 变量 的 均值 非常 接近 . 

F 面 考虑 独立 同 分 布 随机 变量 序列 Xi, Xo,…, 公共 分 布 的 均值 为 凡 方差 为 
02. 定义 样本 均值 


1 Nn 
MM = 一 
mn 一 元 2 和 
$= 二 
则 
也 |X1| 十 … :十 卫 |Xn nn 
| gm 
n n 
再 运用 独立 性 可 得 
var( XI 十 十 Xn) var( XI 二 二 var(Xn) ma2 oo? 
var(M') = 至 5 二 
n n n n 
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不 


a 


用 切 比 雪夫 不 等 式 可 得 


2 
P(M 一 pl 之 < 一 对 任意 的 e > 0 成 立 . 
NE 


注意 , 对 任意 固定 的 e > 0, 上 面 不 等 式 的 右边 在 n 一 co 时 趋 于 0, 于 是 就 得 到 如 
下 的 弱 大 数 定律 . 这 里 要 提 到 的 是 : 当 X; 的 方差 无 界 时 , 弱 大 数 定律 仍然 成 立 , 但 
是 需要 更 严格 而 精巧 的 证 明 , 在 此 省 略 . 因此 , 在 下 面 陈述 的 弱 大 数 定 律 中 , 只 需要 
一 个 假设 , 即 E[X;] 是 有 限 的 . 


弱 大 数 定律 
设 XI,X2,… 独立 同 分 布 , 其 公共 分 布 的 均值 为 ju, 则 对 任意 的 e > 0, 当 


n 一 co 时 ， 


和 
Nn 


光 : 
Pdw ->9=z(| 川 > 可 -0 


弱 大 数 定 律 是 指 对 于 充分 大 的 n, M, 的 分 布 的 大 部 分 都 集中 在 / 附近 . 设 包 

含 的 一 个 区 间 为 -eu 二 gl 则 Mi 位 于 该 区 间 的 概率 非常 大 . 当 n 一 co 时， 

六 概率 趋 于 1. 当然 当 。 非常 小 时 , 则 需要 更 大 的 mw 使 得 M6 以 很 大 的 概率 落 在 
该 区 间 内 . 

例 5.4 (概率 与 频率 ) ”在 某 个 试验 中 , 考虑 一 个 随机 事件 4. 记 p = P(A4) 为 事件 

4 发 生 的 概率 . 现在 假定 在 n 次 独立 重复 的 试验 中 , 记 MM 为 n 次 独立 重复 试验 中 

事件 4 发 生 的 次 数 占 总 试验 次 数 n 的 比例 , M, 通常 称 为 事件 4 的 频率 . 注意 到 


> 
PE 
J 


其 中 X; = 1 表示 事件 4 发 生 , 否则 X; = 0. 特别 地 有 E[Xi| = p. 运用 弱 大 数 定律 
可 以 证 明 : 当 nn 充分 大 时 , 频率 以 很 大 的 概率 落 在 pz 的 e 邻 域 里 . 也 就 是 说 频率 是 
p 的 一 个 很 好 的 估计 . 换 句 话说 , 可 以 将 事件 4 发 生 的 频率 解释 为 概率 p. 
例 5.5 (选举 问题 )” 设 bp 为 选民 支持 某 候选 人 的 比例 . 现在 “随机 ”地 对 n 个 选 
民 进 行 调查 , 然后 计算 这 n 个 选民 对 该 候选 人 的 支持 率 M. 我 们 将 Mi 视 为 p 的 
估计 , 并 研究 它 的 性 质 . 

“随机 ”的 含义 是 指 这 n 个 选民 是 所 有 选民 中 的 独立 同 分 布 样本 . 所 以 每 个 选 
民 的 回答 也 可 以 视 为 独立 的 伯 努 利 随 机 变量 X;, X; = 1 表示 选民 支持 候选 人 , 或 
“试验 成 功 ”. 成 功 的 概率 为 p, X; 的 方差 为 o? = p(1 一 p). 利用 切 比 雪夫 不 等 式 可 


得 


PD) 


(Mn —p| 2 6) < 
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当然 参数 p 的 真 值 是 未 知 的 . 另外 注意 到 p(1 一 p) < ,所 以 


1 
(Mn -p> 0) < p75 


比如 , e= 0.1 且 n = 100 时 ， 


1 
P(Mo -p201)<— ~ = 
(Mi00 P| 0) < TTo0 wo 


也 就 是 说 , 在 ”= 100 的 情况 下 , 估计 量 Mi 与 p 的 真 值 相差 大 于 0.1 的 概率 不 超 
过 0.25. 

现在 考虑 男 一 个 问题 , 假设 我 们 希望 估计 量 与 真 值 p 相差 不 到 0.01 的 概率 
少 超 过 95%, 那么 至 少 需要 调查 多 少 人 ? 现在 我 们 唯一 可 以 使 用 的 就 是 不 等 式 


0.25. 


至 


P(M, p20.01) < 一 . 
( rn 


为 满足 要 求 , 只 需求 充分 大 的 n, 使 得 


1 


由 上 式 可 得 n > 50 000. 取 这 样 的 n, 就 能 满足 我 们 的 要 求 , 但 是 基于 切 比 雪夫 不 
等 式 得 到 的 结论 仍然 很 保守 . 更 好 的 结论 将 在 5.4 节 中 讨论 . 


5.3 ” 依 概 率 收 化 


弱 大 数 定律 可 以 表述 为 “Mi 收敛 于 jy”. 但 是 , 既然 Mi, Mo,.… 是 随机 变量 
序列 , 而 不 是 数列 , 所 以 这 里 的 “收敛 ”的 含义 不 同 于 数列 的 收敛 , 应 该 给 予 更 明确 
的 定义 . 下 面 先 给 出 数列 的 收敛 的 定义 , 以 便于 进行 比较 . 


由 


数列 的 收敛 
““ 设 ma 是 一 实数 数列 , a 为 一 实数 ,如 果 对 任意 的 。> 0, 存在 正 整 数 
no, 使 得 对 所 有 的 n> no 都 有 


lan —al <Ee, 


则 称 数列 a 收敛 于 a 记 为 ,lim on 一 


所 以 , 如 果 lim on = a, 则 对 任意 给 定 的 e > 0, 当 n 充分 大 时 , on 必须 在 a 
的 e 邻 域内 
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依 概 率 收敛 | 
设 六 , 瑟 ,… 是 随机 变量 序列 (不 必 相 互 独立 ), a 为 一 实数 ,如果 对 任意 的 


e>0 都 有 


lim P(|Yh,— al 2 6 =0, 


则 称 二 , 依 概率 收敛 于 a. 


根据 这 个 定义 , 弱 大 数 定律 就 是 说 样本 均值 依 概率 收敛 于 真 值 yu， 更 一 般 地 ， 
利用 切 比 雪夫 不 等 式 可 以 证 明 : 如 果 所 有 的 丈 其 有 相同 的 期 望 , 而 方差 var(Y) 
趋 于 0, 则 ¥, 依 概 率 收 敛 于 jp. 
如 果 随机 变量 序列 六 ,3,… 有 分 布 列 或 者 概率 密度 函数 , 且 依 概率 收敛 于 a. 
则 根据 依 概 率 收敛 的 定义 , 对 充分 大 的 mw 球 的 分 布 列 或 概率 密度 函数 的 大 部 分 
“质量 ”集中 在 a 的 e 邻 域 [a 一 ea 十 相 内 . 所 以 依 概 率 收敛 的 定义 也 可 以 这 样 描 
述 : 对 任意 的 e> 0 和 5 > 0, 存在 no, 使 得 对 所 有 的 n> no 都 有 
P(|Yh,—al2 0 <5. 


下 面 称 e 为 精度 , 6 为 置信 水 平 . 依 概 率 收敛 的 定义 有 如 下 的 形式 : 任意 给 定 精度 
和 置信 水 平 , 在 ”充分 大 时 久 , 等 于 a. 
例 5.6 设 Xi,X2 独立 同 分 布 , 服从 [0,1] 上 的 均匀 分 布 , 定义 
Yh 一 min{Xi… , Xn}. 

当 n 增 大 时 , 到 的 值 不 会 增 大 , 有 时 还 会 减 小 ( 当 X, 的 值 比 前 面 得 到 的 值 小 时 )， 
所 以 ¥, 从 直觉 上 看 可 能 收敛 于 0. 实际 上 , 对 任意 的 e > 0, 利用 X 的 独立 性 可 

P(|Yh,—0|20=P(Xi26:..,Xn2e)=P(X 2e):...P(Xn 2 = (1—e)". 
于 是 


荆 


人 


lim PCYn 一 0| > 6) 三 im (1 —€)"”=0. 
上 式 对 任意 的 e > 0 都 是 成 立 的 , 所 以 Y, 依 概率 收敛 于 0. 
例 5.7 ” 设 随 机 变量 Y 服从 参数 和 = 1 的 指数 分 布 . 对 任意 的 正 整数 mw 定义 
= Y/n. (注意 该 随机 变量 序列 不 是 独立 的 . ) 现在 研究 Y, 是 否 依 概率 收敛 于 0. 
实际 上 , 对 任意 的 e > 0, 可 以 得 到 
P(|Yh,—0|¥20=P(W220=P(Y ne =e ". 


于 是 ， 
lim 县 (人 一 0| 之 6) 一 lim e "=0. 


上 式 对 任意 的 e > 0 都 是 成 立 的 , 所 以 7, 依 概率 收敛 了 


n 


0. 
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人 们 很 容易 认为 , 如 果 二 , 依 概率 收敛 于 实数 w 则 E[Y%] 也 应 该 收敛 于 a. 下 
面 的 例子 说 明 这 个 结论 是 不 对 的 , 从 而 说 明 依 概率 收敛 的 定义 有 局 限 性 . 
例 5.8 ”考虑 离散 随机 变量 序列 3,, 其 分 布 列 为 


1 2 
了 右 =(， 1-1/m 
_ 1 也 的 分 布 处 
P(Yh = 9) = 若 y =n2, 
nN 
0， 其 他 . 
见 图 5.2. 则 对 任意 的 e> 0 有 
这 
Th A ye We 图 5.2 例 5.8 中 随机 变量 区 的 分 布 列 
有 一 Co 了 一 Oo 作 


所 以 六, 依 概 率 收 敛 于 0. 男 一 方面 , 当 n 一 00 时 , E[Y] = 2/m = 一 co. 


5.4 ”中 心 极 限定 理 


根据 弱 大 数 定律 , 样本 均值 Mn = (zi 十 … 十 zn)/n 的 分 布 随 着 n 的 增 大 , 越 
来 越 集中 在 真 值 4 的 邻 域 内 . 特别 地 , 在 我 们 的 论证 中 , 假定 X; 的 方差 为 有 限 的 
时 候 , 可 以 证 明 M6 的 方差 趋 于 0. 另 一 方面 , 前 n 项 和 


Sn = Xi 二 … 二 Xn = nM 


的 方差 趋 于 co, 所 以 5; 的 分 布 不 可 能 收敛 换 一 个 角度 , 我 们 考虑 5 与 其 均值 
ny 的 偏差 5% 一 ny, 然后 乘 以 正比 于 1/ Vn 的 刻度 系数 . 乘 以 刻度 系数 的 目的 就 是 
使 新 的 随机 变量 上 共有 固定 的 方差 . 中 心 极限 定理 指出 这 个 新 的 随机 变量 的 分 布 趋 
于 标准 正 态 分 布 . 
具体 地 说 , 设 Xi1,X2,.… 是 独立 同 分 布 的 随机 变量 序列 , 均值 为 几 方差 为 02. 


定义 
Or 一 TINL Xi 二 + Xn 一 TU 


Zn 
Vno Vno 


经 过 简单 计算 可 以 得 到 


em A Var(X1 十 … 十 Xn) Var(X1) 十 .… 十 Var(Xn) 本 no? ee 
no? no? no? 
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中 心 极限 定理 
设 Xi, X2.… 是 独立 同 分 布 的 随机 变量 序列 , 序列 的 每 一 项 的 均值 为 1, 方 
差 为 o2. 记 


i 
n Vinio 
则 2 的 分 布 函 数 的 极限 分 布 为 标准 正 态 分 布 函数 


1 TX 
TB(7) = | e-* /2dz, 


im P(Zn < 2) = 于 (z) 对 任意 的 z 成立. 
中 心 极限 定理 是 一 个 非常 具有 一 般 性 的 定理 . 对 于 定理 的 条 件 , 除了 序列 为 独 
立 性 同 分 布 的 序列 之 外 , 还 假设 各 项 的 均值 和 方差 的 有 限 性 . 此 外 , 对 X; 的 分 布 
了 也 没有 其 他 的 要 求 .X; 的 分 布 可 以 是 离散 的 、 连 续 的 或 是 混合 的 . 本 章 末 尾 的 
习题 对 此 定理 提供 了 证 明 概 要 . 
这 个 定理 不 仅 在 理论 上 非常 重要 , 而 且 在 实践 中 也 是 如 此 . 从 理论 上 看 , 该 定 
里 表明 大 样本 的 独立 随机 变量 序列 和 大 致 是 正 态 的 . 所 以 当 人 们 遇 到 的 随机 量 是 
由 许多 影响 小 但 是 独立 的 随机 因素 的 总 和 的 情况 , 此 时 根据 中 心 极限 定理 就 可 以 判 
定 这 个 随机 量 的 分 布 是 正 态 的 .例如 在 许多 自然 或 工程 系统 中 的 白 噪 声 就 是 这 种 
情况 . 
从 应 用 角度 看 , 中 心 极 限定 理 可 以 不 必 考 虑 随机 变量 具体 服从 什么 分 布 , 避免 
了 分 布 列 和 概率 密度 函数 的 繁琐 计算 . 而 且 , 在 具体 计算 的 时 候 ， 人 们 只 需 均 值 和 
方差 的 信息 以 及 简单 查阅 标准 正 态 分 布 表 即 可 . 
5.4.1 ”基于 中 心 极限 定理 的 近似 
中 心 极限 定理 允许 人 们 可 以 将 又 的 分 布 看 成 正 态 分 布 , 从 而 可 以 计算 与 2 
相关 的 随机 变量 的 概率 问题 . 因为 正 态 分 布 在 线性 变换 下 仍然 是 正 态 分 布 , 所 以 可 
以 将 5; 视 为 均值 为 nu, 方差 为 na2 的 正 态 随机 变量 . 


De 


基于 中 心 极 限定 理 的 正 态 近似 

令 5% = 天 十 … 十 Xn, 其 中 Xi,Xo,… 是 独立 同 分 布 的 随机 变量 序列 , 均 
值 为 1, 方差 为 c2. 当 充分 大 时 , 概率 P(S, < c) 可 以 通过 将 5 视 为 正 态 随 
机 变量 来 近似 计算 . 步骤 如 下 : 

(1) 计算 5 的 均值 ww 和 方差 no?; 

(2) 计算 归 一 化 后 的 值 z = (c 一 nn)/(Vno); 

(3) 计算 近似 值 
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P(S, < ©c) ~ B(z), 
其 中 B(z) 可 从 标准 正 态 分 布 表 查 得 . 


例 5.9 飞机 上 运载 100 件 包 于 , 每 件 包 于 的 重量 是 独立 的 随机 变量 , 且 在 5 磅 到 
50 磅 之 间 均 匀 分 布 . 那么 这 100 件 包 于 的 总 重量 超过 3 000 磅 的 概率 是 多 少 ? 直接 
计算 总 重量 的 分 布 , 从 而 计算 该 概率 是 非常 不 容易 的 . 但 是 使 用 中 心 极 限定 理 , 可 
以 很 容易 计算 该 概率 的 近似 值 . 
现在 计算 P(Sioo > 3 000), 其 中 Sioo 是 这 100 件 包 于 的 总 重量 . 每 件 包 硅 的 
平均 重量 和 方差 是 
5+50 (50—5)? 
A a?2 = 168.75 

然后 计算 标准 正 态 值 

3000 一 100x27.5 250 

VIi00x168.75 129.9 
使 用 标准 正 态 近 似 , 可 以 得 到 

P(Si00 < 3 000) %~ B®(1.92) = 0.972 6. 
所 以 

P(Si00 > 3 000) = 1—P(Si00 < 3 000) ~ 1— 0.972 6 = 0.027 4. 

例 5.10 ”机 器 对 零件 进行 加 工 , 每 次 加 工 一 个 零件 . 对 于 不 同 的 零件 , 其 加 工时 间 


是 相互 独立 3 
布 . 设 在 
概率 是 


具有 相同 分 布 的 随机 变量 , 其 公民 
E 320 个 单位 时 间 之 内 所 加 工 的 零 
是 多 少 ? 

我 们 不 能 将 Nazo 表示 为 独立 随机 变量 的 和 , 但 
题 . 记 X; 为 第 i 个 零件 的 加 工时 间 , 而 Sioo = XI 十 …: 


共 分 布 为 时 间 
部 件 总 数 为 N320， 


十 


的 加 工 总 时 间 . 事件 {N32o > 100} 和 事件 {S10o < 320} 是 同一 个 事 


是 可 以 换 一 利 


区 间 [1,5] 上 的 均匀 分 
问 N320 至 少 为 100 的 


观点 来 处 理 问 
100 个 零件 
和 件 , 而 后 者 


Xioo 是 前 


口 


的 Sioo 是 独立 同 分 布 的 随机 变量 之 和 , 它 的 分 布 可 上 


了 


n= EIX;] = 3,c2 = var(X;) = (5—1)2/12=4/3. 计算 
,320—n4 _ 320-300 _ 人 
OV 100 x 4/3 
则 概率 近似 为 


E 态 分 布 来 近似 . 注意 到 
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若 X; 的 方差 未 知 , 但 方差 的 上 界 已 知 , 使 用 正 态 近似 的 方法 可 以 得 到 人 们 感 
兴趣 的 事件 的 概率 上 界 . 
例 5.11 (选举 问题 ) ”现在 重新 考虑 例 5.5 的 选举 问题 . 设 对 ”个 选民 进行 调查 ， 
记录 下 他 们 赞成 茶 候选 人 的 比例 Mn， 


人 
i 
nN 


其 中 X; 是 被 调查 的 第 i 个 选民 的 态度 , X; = 1 表示 选民 i 支持 某 候选 人 , X; = 0 
表示 选民 i 反对 某 候选 人 . 假设 p 是 这 个 候选 人 在 全 体 选民 中 的 支持 率 , 则 Xi 是 
服从 参数 为 p 的 伯 努 利 随 机 变量 . 故 Mn 的 均值 为 p, 方差 为 p(1 一 p)/n. 利用 中 
心 极限 定理 , M, 近似 服从 正 态 分 布 . 

下 面 计算 概率 P(|M -中 兰 oj, e 是 估计 精度 , 即 计 算 候 选 人 这 n 个 人 中 的 支 
持 率 与 在 全 体 选民 中 的 支持 率 相 差 大 于 e 的 概率 . 由 正 态 分 布 的 对 称 性 , 可 得 


P(IM,—p|2 0 ~2P(M, -p> eo. 
显然 Mn 一 p 的 方差 为 p(1 一 p)/n, 依赖 于 未 知 参数 p, 所 以 也 是 未 知 的 . 注意 , 偏离 
均值 的 概率 随 着 方差 的 增 大 而 增 大 , 所 以 为 了 得 到 概率 P(M 一 p > e) 的 上 界 , 人 
门 可 以 假设 M 一 p 有 最 大 的 方差 , 即 当 p= 1/2 时 , 方差 为 1/(4m). 为 此 , 先 计算 


7 0 


所 以 
P(Mn—p2e <1-®(2)=1-®(2vn). 


例如 , 当 n= 100 且 e = 0.1 时 , 假设 方差 取 最 大 值 , 且 Mi, 是 近似 正 态 的 , 此 时 


P( —p| 20.1) ~ 2P(M, -p>0.1) 
< 2— 28(2.0.1.V100) =2— 28(2) = 0.046. 


由 此 得 到 P(|M6, 一 p| > 0.1) 的 上 界 为 0.046, 这 比 在 例 5.5 中 使 用 切 比 雪夫 不 等 式 
得 到 的 上 界 0.25 要 小 得 多 , 所 以 更 准确 . 

现在 考虑 另 一 个 问题 . 如 果 希 望 估计 M, 与 真 值 p 的 差距 为 0.01 之 内 的 概率 
至 少 是 0.95, 则 样本 容量 n 应 该 多 大 ? 现在 我 们 假设 最 坏 的 情况 发 生 , 此 时 Mn 的 
方差 达到 最 大 , 这 个 假设 引 疝 条 件 


2 — 28(2.0.01: Vn) < 0.05, 


即 
B(2:0.01. Vn) > 0.975. 
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根据 正 态 分 布 表 , 可 查 得 @(1.96) = 0.975, 所 以 上 式 等 价 于 


2.0.01. Vn > 1.96， 


即 
1.962 


7 之 1 0.01)3 = 9 604. 
这 个 结果 是 比较 理想 的 , 若 使 用 切 比 雪夫 不 等 式 , 需要 50 000 个 样本 才能 保证 上 述 
结论 . 
当 n 一 co 时 , 正 态 近 似 就 会 越 精确 , 但 是 在 实践 中 , 样本 容量 n 是 固定 的 、 有 
限 的 . 所 以 须知 道 mn 多 大 时 正 态 近似 的 结果 是 可 信 的 . 可 惜 的 是 , 没有 简单 和 普遍 
的 准则 来 判断 . 这 要 依赖 于 X; 的 分 布 是 否 与 正 态 分 布 接近 , 特别 地 , 还 依赖 于 Xi; 
的 分 布 是 否 对 称 . 比如 说 , 假设 X; 是 均匀 分 布 , 则 Ss 就 已 经 与 正 态 分 布 接近 了 . 
但 是 如 果 X; 是 指数 分 布 , 那么 n 必须 要 充分 大 , Sn 的 分 布 与 正 态 分 布 才 接近 . 进 
步 , 使 用 正 态 近似 计算 P(5,, < o) 的 时 候 , 其 近似 的 程度 与 e 的 值 有 关 . 一 般 来 
说 , 如 果 ec 在 sr 均值 的 附近 ， 其 精度 会 更 高 一 些 ， 
5.4.2 ”二 项 分 布 的 棣 莫 弗 - 拉 普 拉 斯 近似 


服从 参数 为 n 和 的 二 项 分 布 的 随机 变量 8, 可 以 看 成 个 服从 参数 为 p 的 
伯 努 利 分 布 的 独立 随机 变量 Xi,… ,Xn 的 和 : 


Sn = Xi + + Kn. 


MW= EXi)]=p, o= Vvar(Xi)= Vp(l—p) 


现在 使 用 中 心 极限 定理 去 近似 事件 {k < 5,, < 中 的 概率 , 其 中 和 1 是 给 定 
的 整数 . 实际 上 , 运用 事件 的 等 价 性 


ss Sn — np {i—np 


ym 1-p) Vnpll-p) Vnp(l—p) 
将 事件 表达 成 标准 化 随机 变量 的 形式 . 利用 中 心 极限 定理 可 知 近似 服从 


标准 正 态 分 布 , 所 以 


六 这 ?人 ko—np is Sn— np 芭 [i—np ) 


Vnp(l—p) Vnp(l-p) Vnp(l—p) 


四 | [i— np ) = 人 ( ko—np . 
np(l1 — »p) np(1 —»p) 
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上 述 近 似 方法 等 价 于 将 5 | np 方差 为 np(1 一 p) 的 正 态 分 布 . 图 
5.3 表明 , 如 果 k 和 1 蔡 换 成 一 3 和 1? 十 则 概率 的 近似 结果 更 加 准确 , 下 面 给 
出 相关 的 近似 公式 . 


二 项 分 布 的 棣 莫 弗 - 拉 普 拉 斯 近似 
设 Sn 是 服从 参数 为 n 和 p 的 二 项 分 布 , n 充分 大 ,大 和 1 是非 负 整数 , 则 


人 从业 Ae 
nd 2 
np(1—p) np(1 —p) 


5.3” 正 态 近 似 将 二 项 分 布 随 机 变量 5 看 成 均值 为 np 方差 为 np(1 一 p) 的 正 态 分 布 . 图 
中 显示 二 项 分 布 的 分 布 列 和 相应 的 正 态 概率 密度 函数 . (a) 概率 值 P(k < Sn < 1) 可 
以 由 正 态 概率 密度 函数 从 及 到 1 进行 积分 计算 , 即 图 形 中 阴影 部 分 的 面积 , 使 用 这 种 
方法 , 当 = 1 时 , 概率 P( < Sn < 1) 就 会 近似 为 0. (b) 弥补 这 个 缺陷 的 方法 就 是 
用 区 间 [k 2 3] 内 正 态 分 布 的 概率 来 近似 . 使 用 这 种 想法 , P(X < S。 和 1) 可 以 
用 正 态 概率 密度 函数 在 区 间 [k 一 ,1 十 3] 内 的 面积 来 近似 


一 、 AN 


当 p 靠近 1/2 时 ， X; 的 分 布 列 是 对 称 的 , 当 n 接近 40 或 50 时 ， 和 
似 方法 就 能 得 到 很 好 的 结果 . 当 p 靠近 1 或 0 时 , 这 个 近似 结果 就 不 好 , 这 时 需 
更 大 的 ”才能 得 到 相同 的 精度 . 
例 5.12 设 5 是 服从 参数 为 n= 36 和 w= 0.5 的 二 项 分 布 , 则 


让] 36 
P(Sn, < 21) = 》， (es = 0.878 5 


k=0 
是 精确 的 概率 . 
使 用 中 心 极限 定理 , 若 端 点 不 经 过 修正 , 上 述 概率 可 以 近似 为 
?<r (全 = 3)- 5 (3 ) = (1) = 0.841 3. 
Vnp(l —p) (1— 


并 6- 21.5—1 
P(S, < 21)~ 5 (3 一 和 ( : ) = §(1.17) = 0.879. 
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使 用 端点 修正 技术 , 同样 可 以 近似 Sn 在 六 


上 述 计算 说 明 , 端点 经 过 修正 以 后 , 近似 的 概率 与 精确 概率 非常 接近 . 


19.5—1 18.5—1 
p(s =19) ~ (Ee ) 0 (2 > ) = 0.691 5 — 0.567 5 = 0.124 


3 
这 也 与 真 值 

P(S,, = 19) 
非常 接近 . 


5.5 


.5” 一 0.125 1 
(2) 5 0.125 


强大 数 定 律 


强大 数 定律 与 弱 大 数 定律 一 样 , 都 是 指 样本 均值 收敛 于 真 值 六 但 


调 的 是 不 同 的 收敛 类 别 . 


下 面 是 强大 数 定律 的 一 般 陈述 . 在 本 章 末尾 的 习题 


附加 条 件 之 下 给 出 了 证 明 . 


个 


J 


是 , 它们 强 


E 有 限 的 


强大 数 定律 


设 XI1, XX2,… 是 均值 为 1 的 独立 
(Xi 十 Xz 十 … 十 XX)/n 以 概率 1 收敛 


,了 即 


本 
=h 


no00 


二 
P (Jin 下 


nN 


同 分 布 随机 变量 序列 , 则 样本 均值 M, 一 


为 解释 强大 数 定律 , 还 是 采用 相 


fF 本 空间 的 概率 模型 来 解释 . 由 于 试验 是 


无 穷 


长 的 一 串 独 立 重复 的 小 试验 序列 组 成 , 每 次 试验 的 结果 , 就 是 随机 变量 序列 X1, X2,…… 


的 一 个 数据 的 无 穷 序列 zl, x2,…. 


所 以 ， 人们 可 以 


样本 空间 中 的 一 个 集合 4: {w :w= (x1, 22,*… 


限 意义 下 的 样本 均值 为 y, 即 


(Z1;Z2， ) E 4 < 一 im 
强大 数 定律 是 指 样本 空间 中 几乎 所 有 可 能 的 样本 点 都 集 


名 话说 , 所 有 不 在 4 中 的 可 能 结果 组 成 的 子 集 的 概率 为 0. 
强大 数 定律 与 弱 大 数 定律 的 区 别 是 细微 的 , 需要 仔细 说 明 .， 弱 大 数 定 自 


.)}, 4 


Z1 十 2 十 … 十 Zn 


在 这 个 特殊 的 子 集 9 


巴 样本 空间 定义 为 无 穷 序列 
w 二 (z1,22,… ) 的 集合 : 任何 一 个 无 穷 的 数列 都 可 能 是 试验 的 一 个 结果 . 现在 考虑 
的 样本 满足 如 下 条 件 : 在 极 


FP. 换 


是 指 


M 显著 性 偏离 j 的 事件 的 概率 P(|Mi 一 pl z 6 在 一 co 时 趋 于 0. 但 是 对 任 


意 有 限 的 n, 这 个 概率 可 以 是 正 的 . 所 以 可 以 想象 的 是 , 在 M, 这 个 无 穷 的 序列 中 ， 
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常常 有 MM 显著 偏离 人 /. 弱 大 数 定 律 不 能 提供 到 底 有 多 少 会 显著 性 偏离 j, 但 是 强 
大 数 定 律 却 可 以 . 根据 强大 数 定律 ，M，。 以 概率 1 收敛 于 jw， 这 意味 着 , 对 任意 的 
e> 0, 偏离 |M 一 | 超过 。 的 只 能 发 生 有 限 次 . 

例 5.13 (概率 与 频率 ) ”如 同 例 5.4, 考虑 某 试 验 中 事件 4 发 生 的 概率 . 在 多 次 进 
行 重复 试验 中 , 记 Mi 为 n 次 试验 中 事件 4 发 生 的 频率 . 强大 数 定 律 保证 Mn 以 
概率 1 收敛 于 P(4). 相 比 之 下 , 弱 大 数 定律 则 保证 Mi 依 概 率 收 敛 于 P(4) ( 见 例 
5.4). 

我 们 经 常 将 事件 4 的 概率 直观 地 解释 为 独立 重复 无 穷 试 验 序列 中 事件 4 出 
现 的 频率 . 强大 数 定律 支持 了 这 种 直观 的 解释 ， 并 且 指 出 在 独立 重复 的 试验 序列 
中 , 可 以 肯定 地 说 ( 即 事 件 发 生 的 概率 为 1): 事件 4 长 时 间 出 现 的 频率 就 是 概率 
P(A). 


以 概率 1 收敛 
强大 数 定律 中 的 收敛 与 弱 大 数 定律 中 的 收敛 是 两 个 不 同 的 概念 .现在 给 出 以 
概率 1 收敛 的 定义 , 并 讨论 这 个 新 概念 . 


以 概率 1 收敛 
设 总 ,3,… 是 某 种 概率 模型 下 的 随机 变量 序列 (不 必 独 立 ), c 是 某 个 实数 ， 


如 果 
P( lim Y= 0)=1, 


则 称 二 ,以 概率 1 (或 几乎 处 处 ) 收敛 于 <. 


类 似 于 前 面 的 讨论 , 我 们 应 该 正确 理解 以 概率 1 这 种 收敛 类 型 , 这 种 收敛 也 是 
在 由 无 穷 数 列 组 成 的 样本 空间 中 建立 的 : 若菜 随 机 变量 序列 以 概率 1 收敛 于 常数 
c, 则 在 样本 空间 中 , 全 部 的 概率 集中 在 满足 极限 等 于 c 的 无 穷 数列 的 子 集 上 . 但 
这 并 不 意味 其 他 的 无 穷 数列 是 不 可 能 的 , 只 是 它们 是 非常 不 可 能 的 , 即 它们 的 概率 
为 0. 
例 5.14 设 庆 ,Xo,… 是 独立 随机 变量 序列 , X; 的 公共 分 布 是 区 间 [0,1] 中 的 均 
匀 分 布 . 令 奈 = min{Xi1,… ,Xn}. 下 面 证 明 丈 以 概率 1 收敛 于 0. 

注意 , 到 是 非 增 的 , 即 对 所 有 的 n 有 ,Jj1 < 二 .既然 序列 到 有 下 界 0, 所 
以 一 定 有 极限 , 将 这 个 极限 记 为 Y， 固定 e > 0, 如 果 节 > e 则 对 所 有 的 i 都 有 
Xi > 6 故 对 所 有 的 nn 有 


P(Y zz¢) <P(Y 26.…,m20=(1-e)". 


P(Y ze < lim (1—e"”=0. 


TS 
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这 就 证 明了 对 任意 的 正 数 ec 有 了 P(ZY > e)=0. 故 P(Y >0)=0, 从 而 P(Y=0)=1. 
又 因为 Y 是 ,的 极限 , 所 以 奈 以 概率 1 收敛 于 0. 

以 概率 1 收敛 理 含 依 概 率 收 敛 ( 见 本 章 末尾 的 习题 ), 但 反之 不 成 立 . 下 一 个 例 
子 说 明 依 概率 收敛 和 以 概率 1 收敛 的 区 别 . 


例 5.15 ”考虑 一 个 离散 时 间 到 达 的 过 程 ”. 


合 1 2 ……}， 现 将 这 个 集合 分 割 成 若干 互 不 相交 的 集合 


es ,2Ft1 — 1},k=0,1,.…. 注意 ， Lr 的 长 度 是 ok 随 着 kh 


每 个 区 间 , 只 有 唯 


的 一 个 到 达 时 刻 , ] 


各 个 区 间 到 达 时 刻 是 相互 独立 的 . 若 记 第 个 
是 相互 独立 的 随机 变量 序列 , & = 0,1,…. 现在 定义 随机 变量 序列 球 : 如 果 在 时 刻 


到 达 了 , 则 定义 到 = 1, 否则 定义 到 = 0. 
如 果 ne I, 则 P(Y, 关 0) = 2-*. 注意 到 , 对 任意 的 n, 存在 唯一 的 使 得 
ne 到: 而 且 随 着 n 的 增 大 , k 也 随 之 增 大 , 所 以 


lim P(Y, #0) = lim 2 天 一 0. 


我 们 假定 到 达 的 时 刻 属 于 正 整数 集 
(区 间 ) I = {2*,2* 十 
的 增 大 而 增 大 . 假定 在 
昌 在 区 间 内 每 个 时 刻 到 达 是 等 可 能 的 , 在 
区 间 内 的 到 达 时 刻 为 mk， 


则 nx 


故 3 依 概 率 收 敛 于 0. 但 是 在 每 个 区 间 I 都 有 到 达 时 刻 , 所 以 到 达 的 次 数 是 无 穷 
多 次 的 , 所 以 存在 无 穷 多 个 n 使 得 ,== 1. 这 样 , 事件 { lm_Y, = 0} 的 概率 为 0， 


即 去 , 不 以 概率 1 收敛 . 


直觉 上 看 , 对 任意 给 定时 刻 n, 7, 与 0 的 偏差 显著 大 于 0 的 概率 很 小 , 而 
着 n 的 增 大 , 概率 在 减少 . 这 就 是 说 区 是 依 概率 收敛 的 序列 . 另 一 方面 


足够 大 , 7 = 1 肯定 会 发 生 , 因此 ¥, 就 不 以 概率 1 收敛 . 


本 章 中 , 我 们 讨论 了 概率 论 中 许多 重要 的 理论 , 并 主要 从 概念 和 实际 应 
角度 来 论述 . 从 概念 上 看 , 概率 可 以 看 作 大 量 独立 试验 的 相对 频率 , 并 且 本 章 给 出 
度 看 , 对 计算 关于 独立 随机 变量 和 的 事件 的 概率 给 
出 了 合理 的 近似 计算 方法 , 而 对 这 些 事件 概率 的 精确 计算 却 往往 很 困难 . 在 统计 推 
断 中 , 我 们 将 看 到 这 些 定 

本 章 论述 了 如 下 三 个 


了 其 坚实 的 理论 依据 . 从 实践 人 


5.6 ”小 结 和 讨论 


涉及 极限 理论 的 定律 . 


lL 的 大 量 应 用 . 


, 只 要 时 间 


用 两 个 


随 


(a) 弱 大 数 定律 : 表明 在 样本 容量 ”充分 大 时 , 样本 均值 与 真 均值 非常 接近 . 切 


比 雪夫 不 等 式 是 概率 论 中 一 个 非常 有 用 的 不 等 式 . 


@ 到 达 时 刻 的 直观 含义 是 非常 清楚 的 , 例如 , 时 刻 n 到 达 一 位 顾客 , 或 


法 . 一 一 译 者 注 


时 刻 n 到 达 一 个 基本 粒子 等 说 


(b 


We 


和 的 分 布 可 以 


中 心 极限 定理 : 


主要 工具 , 而 


概率 论 中 最 重要 的 理论 


论 之 


近似 为 正 态 分 布 . 中 心 极限 定型 


有 


(©) 


重要 的 工具 . 
在 研究 极限 理论 中 , 本章 介 乡 


E 有 许多 应 用 , 它 


信 在 大 量 实例 中 使 用 正 态 模 型 的 假设 的 全 E 


强大 数 定律 


了 


: 将 概率 和 频率 更 加 紧密 地 联系 起 来 , 在 理论 研究 中 也 是 非常 


很 多 收敛 


是 ee 量 之 


是 统计 分 析 中 的 一 个 
性 


的 概念 ( 依 概率 收敛 , 以 概率 1 收 


和 敛 ), 同时 也 提供 了 概率 模型 中 关于 收敛 的 精确 语言 .极限 理论 和 收敛 概念 是 研究 
概率 模型 和 随机 过 程 中 非常 重要 的 课题 . 
习 题 
5.1 节 马尔 可 夫 和 切 比 雪夫 不 等 式 
1. a a nt 高 h (以 米 为 单位 ), 他 在 该 类 人 群 中 随机 抽取 m 
个 人 , 获得 样本 Xi ,Xn. 使 用 样本 均值 Mi = (Xi 十 … 十 Xn)/n 作为 h 的 估计 ， 
大 致 猜测 X; 的 标准 差 为 1 米 
(a) 样本 容量 多 少时 , 使 得 M, 的 标准 差 最 多 不 超过 1 厘米 ? 
(b) 样本 容量 多 少时 , 使 用 切 比 雪夫 不 等 式 可 以 保证 估计 值 与 h 的 差距 至 少 以 0.99 的 
概率 在 5 厘米 之 内 ? 
(c) 该 统计 学 家 认识 到 该 类 人 和 群 里 所 有 的 人 的 身高 都 在 1.4 米 到 2.0 米 之 间 , 然后 他 基 
于 例 5.3 使 用 的 上 界 方法 , 来 修正 对 标准 差 的 猜测 ( 即 原来 的 1 米 ). 那么 (a) 和 (b) 
的 结论 如 何 修正 ? 
2.” 切 尔 诺 夫 界 . 切 尔 诺 夫 界 是 概率 论 的 一 个 有 用 的 工具 , 它 是 利用 随机 变量 的 矩 母 函 数 , 给 
出 某 些 尾 事件 的 概率 上 界 . 
(a) 证 明 不 等 式 
P(X> a)<e “M(s) 
对 所 有 的 a 和 s > 0 成 立 , 其 中 M(s) = Ble:X] 是 随机 变量 X 的 矩 母 函数 . 假定 
和 矩 母 函数 在 s = 0 的 一 个 小 区 域内 取 有 限 值 . 


(b) 证 明 不 等 


(c) 证 明 不 等 


(d) 证 


P(X<a)<e MI(s) 


对 所 有 的 a 和 s < 0 成 立 . 


式 


所 有 的 a 成 立 , 其 


明 ; 如 果 a > E[X], 


Pla) 


= max(sa — ln M.(s)). 


SR 


则 8(a) >0 
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(e) 


(f) 


(b) 


(c) 


利用 (c) 的 结论 , 试 给 出 P(X > a) 的 上 界 , 其 中 X 服从 标准 的 正 态 分 
定 a>0. 


布 , 并 且 假 


设 Xi X2,… 是 独立 随机 变量 序列 , 与 X 有 相同 的 分 布 . 证 明 对 任意 的 a > E[X]， 


均 有 


1 n 
P| = Xi>a) <e yo) 
pe 


所 以 样本 均值 超过 均值 一 定量 的 概率 随 着 n 的 增 大 指数 递减 . 
(a) 对 任意 的 实数 a 和 s > 0, 定义 随机 变量 


总 成 立 , 所 以 


另外 
E[lYs] = e™P(Ys =e™)=e” P(X > ao)， 
故 
P(X >a)<e 1M(s) 

证 明 过 程 类 似 于 (a), 定义 到 如下: 

es ， 全 X 莹 w， 

y, = 
人 二 SS 

因为 s < 0, 关系 式 

Y, < esx 


总 成 立 , 所 以 


另外 
E[lYs] =e™P(Ys =e™)=e™ P(X < ao), 
故 
P(X<a)<e ™M(s). 
因为 (a) 中 不 等 式 对 所 有 的 s > 0 成 立 , 所 以 


这 二 2 ee a 一 (sa 一 In M(s)) 
P(X>a) 芯 min (e “* M(s)) mine 
-max (sa — ln M(s)) 


6 -0) 
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(d) 当 s= 0 时 ， 


sa— lnM(s)=0—1In1=0, 
这 里 应 用 了 M(0) = 1, 而 且 


S$ (sa ~ In M(s)) a - SM(s) 1:E[X] > 0. 
因为 函数 sa 一 ln M(s) 在 s=0 处 的 函数 值 为 0, 且 导 数 是 正 的 , 所 以 当 s 是 很 小 
的 正 数 时 , 函数 值 一 定 是 正 的 . 故 函数 sa 一 In M(s) 在 sz 0 的 最 大 值 $(a) 也 一 
定 是 正 的 . 

X 是 标准 正 态 分 布 时 ，M(s) = es /2. 因此, sa 一 In M(s) = sa 一 s2/2. 为 给 出 
s 之 0 时 函数 的 最 大 值 , 先 求 函数 sa 一 s2/2 对 变量 s 的 导数 , 得 a 一 s, 令 其 为 0， 
解 得 s = a. 从 而 8(a) = a2/2. 所 以 概率 P(X > a) 的 上 界 为 


P(X >a)< eo/2. 


注意 , 当 a < 0 时 , 函数 sa 一 In M(s) 在 s= 0 处 达到 最 大 值 , 所 以 9(a) = 0 时 给 
出 一 个 无 意义 的 上 界 


I 


| 


(e) 


P(X2>a)<l1. 


(f) 定义 Y= Xi 十.… 十 Xn. 运用 结论 (c), 可 得 
1 nn 
也 | 二 Xi 一 P(Y > 过 一 %Y (na) 
(这 "] ( na) <e 


py (na) = max(nsa — ln My(s)), 


因 In My(s) = nlnM(s), 所 以 


py(na)=n.:max(sa— lnM(s)) = n¢(a), 


3 之 


1 n 
Pi |= Xi; 之 < 一 ng(a) 


注意 , 当 a > E[X], 结论 (d) 保证 了 %(a) > 0, 所 以 感 兴趣 的 概率 随 着 n 的 增 大 而 
按 指数 递减 . 
3.” 入 和 森 不 等 式 . 设 实 值 函 数 f(z) 二 次 可 微 . 如 果 二 阶 导 数 Es f(z) 在 2z 的 定义 域内 是 非 
负 的 , 则 称 函数 f(z) 是 凸 函 数 . 
(a) 证 明 函 数 f(x) =e**、f(z) = 一 Inx 和 f(z) = x 都 是 辆 函数. 
(b) 证 明 : 如 果 了 是 凸 的 二 阶 可 微 函 数 , 则 了 的 一 阶 泰勒 展开 低估 了 郊 数 f, 即 


(0) < 


Ja) + (x—a) < f(x) 


对 任意 的 a 和 7 成立. 
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(c) 证 明 : 如 果 了 满足 (b) 中 所 述 的 条 件 , X 是 随机 变量 , 则 
f(E[X]) < 也 [AS 


解 (a) 


d? 2 2 


J 
0 
3 dzZ2 


二 2 一 12z2 > 0. 


(b) 因为 f 的 二 阶 导数 是 非 负 的 , 所 以 它 的 一 阶 导数 一 定 是 非 降 . 应 用 积分 原理 可 得 
~“d ~“d d 
9=70+/ Hoaz70+/ PO) + 0) 


a 


(c) 由 于 (b) 中 的 不 等 式 对 随机 变量 X 的 所 有 可 能 取 值 的 z 都 成 立 , 所 以 


fo) + (Xo) (0) < 1X). 


取 a = E[X], 并 在 上 式 两 边 取 期 望 , 可 得 
f(E[X]) + (EX] 一 EIX]) (ELX]) < E[f(X)], 
即 
f(E[X]) < EI[f(X)]. 
5.2 节 ” 弱 大 数 定律 


4. 为 估计 吸烟 人 群 占 总 人 口 的 真实 比例 f, 阿尔 文 随机 地 从 其 中 抽取 mn 人 . 用 这 ”个 人 中 
的 吸烟 人 数 S。 除 以 n, 得 到 M6, 作为 该 比例 的 估计 , 即 Mn = Sw/n. 对 于 固定 的 正 数 
ce 和 6, 阿尔 文 为 选取 最 小 的 样本 容量 n, 使 得 下 式 成 立 (基于 切 比 雪夫 不 等 式 ): 


指出 n 随 着 下 面 参数 变化 而 变化 的 规律 
(a) e 缩小 为 原来 的 一 半 . 
(b) 概率 值 5 缩小 为 原来 的 一 半 . 


5.3 节 ” 依 概率 收敛 


5.。 设 Xi1, X2,… 独立 同 分 布 , 服从 [1,1] 上 的 均匀 分 布 . 证 明 下 列 情形 的 随机 变量 序列 
次 , 3,… 依 概率 收敛 , 并 求 出 它们 的 极限 . 
(a) Yh = Xn/n. 
(b) Yh = (Xn)”. 
(c) Yh = Xi XXX 
(d) Yh, = max{Xi1,:... , Xn}. 


”考虑 两 个 随机 变量 序列 Xi1,X2,… 和 到 , 玖 … 假定 Xn 和 了 球 都 分 别 依 概率 收敛 , c 

为 知 常数 ， 证 明 : CXn、 Xn 加 大 Yn、\ max{0, Xn}、 [Xnl、 Xn Yn 都 依 概率 收敛 于 各 自 的 
极限 . 
解 假设 z 和 yy 分 别 是 Xs 和 YY 的 极限 . 对 任意 的 e > 0 和 常数 c, 如 果 c= 0, 则 eX 
对 所 有 的 n 都 等 于 0, 自然 就 收敛 . 如 果 c 冯 0, 则 P(lcXn 一 cx|2 e) = P(X 一 z| > 
e/|d|) 一 0, 所 以 就 证 明了 cX 依 概 率 收敛 于 cx. 

对 任意 的 e > 0, 现在 我 们 证 明 概率 P(X 十 一 x 一 Yy| 之 6) 一 0. 为 给 该 概率 一 
个 上 限 , 注意 到 : 当 |Xn 十 总 一 x 一 y| 之 ce 时, 必 有 |Xn 一 z| 之 ce/2 或 者 |Y 一 y| > ce/2 
(或 者 两 者 都 成 立 ). 所 以 , 从 事件 的 角度 看 ， 

a /9 


交趾 钟 


PUXn t+ Yn -2-Y>0 PX, — 72 6/2)+P(Yn — yz /2), 
以 及 由 Xn 和 YY 分 别 依 概率 收敛 于 > 和 y 的 假设 条 件 可 得 
lim P(Xn+t+Yh mr—y2e< lim P(X， 一 z| >e/2)+ lim P( 隐 一 让 2 /2)=0. 


类 似 地 , 事件 {| max{0, X} 一 max{0, x}| > e} 包含 在 事件 {|X 一 x| > e} 之 中 . 
又 因为 lim P(X 一 z| 宕 6)=0, 所 以 


lim P(|max{0, Xn} — max{0,z}| 2 ©)=0. 


这 就 证 明了 max{0, Xn} 依 概 率 收敛 于 max{0, zx}. 

我 们 有 |Xs| = max{0, Xa} + max{0, 一 Xn}， 前 面 已 经 证 明了 max{0, Xn} 和 
max{0, 一 Xn} 都 依 概率 收敛 , 所 以 它们 的 和 也 依 概 率 收敛 于 max{0, 2} 十 max{0, 一 z} = 
|zl. 


最 后 ， 


P(X — zy 2 ©) = PC — (Ys —W) + 2Y + yXn -22y| > ©) 
< P(X — zo) — | 2 6/2) + P(e + yXn -27y| > /2). 


因为 zY 和 yX 都 依 概 率 收敛 于 zy, 所 以 上 式 中 后 一 个 概率 值 趋 于 0. 所 以 我 们 只 需 
证 明 


PUC — 7)(Yn — Wz /2) 一 0 
为 给 该 概率 一 个 上 限 , 注意 到 : 当 |(X, - z)( 球 一 切 | > e/2 时 , 必 有 |X 一 z| > Ve/2 
或 者 | 于 一 y| > Ve/2 (或 者 两 者 都 成 立 ). 类 似 于 X 十 , 依 概率 收敛 的 证 明 , 同样 可 
以 证 明 P(I(CXn 一 x)(Yh — YW)| > e/2) 一 0. 
” 称 随机 变量 序列 X 为 均 方 收敛 于 常数 c, 如 果 


Th 


lim E[(X, — c)*] = 0. 


也 一 Co 


(a) 证 明 : 均 方 收敛 的 随机 变量 序列 必定 依 概 率 收敛 . 
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(b) 给 出 一 个 例子 , 说 明 依 概 率 收敛 的 随机 变量 序列 不 是 均 方 收敛 的 . 
解 (a) 假设 X 均 方 收敛 于 常数 c, 利用 马尔 可 夫 不 等 式 , 有 
P( 一 c 中 > 日 =P(R -cl >e)< 业 oO] 
令 n 一 oo0, 可 得 
lim P(|Xn 一 c| >e)=0， 

即 依 概 率 收 敛 . 

(b) 在 例 5.8 中 , , 依 概率 收敛 于 0, 但 是 [22] = n3? 发 散 到 无 穷 大 


5.4 节 ”中 心 极限 定理 


8. 


10. 


11. 


12.” 


假设 你 将 在 赌场 玩 轮 盘 


赌 , 通常 你 需要 检验 轮 盘 的 公正 性 


其 办 法 如 下 : 轮 盘 上 标 有 


1~36 的 数字 , 将 轮 盘 转动 100 次 , 然后 计算 轮 盘 总 省 在 奇数 点 处 的 总 次 数 . 如 果 次 数 大 
于 55, 则 可 判断 轮 盘 不 是 公正 的 . 假设 轮 盘 是 公正 的 , 试 估计 做 出 错误 判断 的 概率 . 
假设 计算 机 系统 每 天 至 少 出 现 一 次 死机 的 概率 为 5%, 而 且 在 不 同 天 里 , 出 现 死机 的 事件 
是 相互 独立 的 . 求 在 50 天 之 内 计算 机 至 少 有 45 天 没有 死机 的 概率 . 
(a) 试用 二 项 分 布 的 正 态 近似 方法 来 计算 . 
(b) 试用 二 项 分 布 的 泊 松 近似 方法 来 计算 . 
一 工厂 在 第 n 天 生产 小 配件 X， 件 , 且 X 是 相互 独立 的 随机 变量 序列 , 均值 为 5, 方差 
为 9. 
(a) 试 给 出 在 100 天 内 生产 至 少 440 件 小 配件 的 概率 的 近似 值 . 
(b) 给 出 最 大 的 的 近似 值 , 使 得 
P(Xi+:: + X, > 200+ 5n) < 0.05. 

(ce) 用 N 表示 小 配件 的 总 产量 首次 超过 1 000 的 天 数 , 计算 N > 220 的 概率 的 近似 值 . 
设 Xi, 妨 ,Xz, 2,… 是 独立 的 随机 变量 序列 , 服从 [0,1 上 的 均匀 分 布 . 定义 

W = (X1 0 六 十 Yo) 


试 给 出 概率 P(|W 一 B[W]| < 0.001) 的 近似 值 . 


中 心 极限 定理 的 证 明 . 设 Xi X2,… 
Mx (s). 假设 对 某 个 正 实数 d, 当 


|s| <d 时 ， Mx 


De 
坟 , 三 1 十 


万 


证 明 : Z 的 矩 母 函 数 为 


(a) 


独立 同 分 布 , 均值 为 0, 方差 为 o?. 


其 算 母 函数 为 


(s) 是 有 界 的 . 定义 


+ Xn 


Mz (s) = (x ( 吉 )) 


(b) 设 Mx(s) 在 s ==0 处 附近 存在 二 


y 
1 


阶 泰勒 展 ] 
Mx(s) =a+bs+cs: +o(s 
中 o(s?) 满足 lim ofs?)/s2 = 0. 试 写 出 a、b、c 的 表达 式 ( 


TF， 即 


jo? 表示 ). 


(c) 用 
数 , 即 对 所 有 的 s， 


lim Mz,(s)= es /2. 


注 ”中 心 极限 定理 的 证 明 就 是 利 
收敛 于 一 个 连续 的 随机 变量 2 的 矩 母 函数 


Mz(s), 那么 Zn 


绪论 (c) 以 及 如 下 结论 (证 


(a) 和 (b) 的 结论 证 明 2 的 矩 母 函数 Mz, (s) 收敛 于 标准 正 态 分 布 的 矩 母 函 


在 此 省 上 略 ): 如 果 Mz (s) 
的 分 布 函 数 Fz,。 必 收敛 于 


2Z 的 分 布 函 数 Fz. 这 个 结论 的 证 


明 超 出 本 书 的 范围 , 在 此 不 


再 论述 . 利 


结论 (c) 和 上 


述 结论 , 可 以 得 到 2 
定理 成 立 . 
解 (a) 利 


] Xi 的 独立 性 


可 得 


Mz (s) = Eles2"] =E 


Ss 
exp $4 ——— 
[| 坊 


守 [| 


2 


#1 


Co 


S 


oVn 


利用 


C= 


(b) 


(c) 


的 分 布 函数 Fz,, 必 收敛 于 标准 正 态 分 布 的 分 布 函 数 , 即 中 心 极限 


-人 谢 


oa2/2 可 知 


WasO= (11 2 


利用 


lim (1 + 


有 一 Oo 


NN 4 日 
2 六 三 ec 可 得 


lim Mz,(s)= es /2. 
5.5 节 ”强大 数 定律 
13.” 考虑 两 个 随机 变量 序列 Xi X2,.… 和 站, Y2,… 
a 和 b, 证 明 Xi 十 以 概率 1 收敛 于 a 十 b. 进 
率 1 收敛 于 a/b. 
解 
+0b}, 则 CCAUB. 


t 


… 假定 X 和 六, 分 别 以 概率 1 收敛 于 
步 , 如 果 并, 关 0, 证 明 X /全 以 概 


记事 件 4 = {X 不 收 敏 于 @}, B = {Y, 不 收 敏 于 里 , C = {X 十 不 收 全 于 a 
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14.” 


15.” 


16.” 


P(C) < P(AUB) < P(A)+P(B)=0, 


因为 假定 Xn 和 六, 分 别 以 概率 1 收敛 了 


Fa 和 5b, 所 以 P(A) = P(B) = 0. 故 


Fa 十 b. 类 似 可 订 


于 ayb. 
设 Xi, X2,…… 是 独立 同 分 布 的 随机 变量 序列 , 六, 部 ,…… 
量 序 列 . 假定 X; 和 的 均值 有 限 , 且 页 十 … 十 不 可 能 为 零 值 . 
Xl Xn 
和 = 本 到 
是 否 以 概率 1 收敛 ?如 果 是 , 极限 是 什么 ? 
7 2 (Kitt Xn)/n 
+t)/n 


l 


的 结论 可 得 2 以 概率 1 收敛 于 EB[X]/E[Y]. 
假设 六 ,3，… 


Ak 二 {对 所 有 的 nz, | 一 c 


运用 强大 数 定律 可 知 , 分 子 和 分 母 都 分 别 以 概率 1 收敛 了 


c, 则 必然 存在 , 使 得 n > k 时 , 到 与 c 的 1 


必 属 于 某 个 Ak, 即 


CC UU A. 


Nal 


F ELEX] 和 E[Y]. 利用 > 


给 定 e > 0, 定义 事件 


< }. 如 果 随 机 变量 序列 丈 的 一 组 取 值 序列 收敛 于 
有 差 在 e 范围 之 内 . 所 以 , C 中 的 任何 元 素 


0C)=1. 2 


注意 , 事件 序列 4x 是 单调 递增 的 , 即 Aj C 4x+1. 由 事件 Aj 是 寻 


子 集 可 知 
lim P(lYn — dc| <©) > lim P(An) =P(UE 
上 式 的 第 一 个 等 式 利 用 了 概率 的 连续 性 (第 1 


lim P(|Yh,—c|z6e=0, 


也 一 Co 


即 证 明了 Yi 依 概率 收敛 于 常数 c. 
假设 歼 , 玖 ，… 为 非 负 的 随机 变量 序列 , 且 


sy 7| <= 


证 明 六 以 概率 1 收敛 于 0. 
注 ”这 个 结论 是 
们 常用 公式 


a[> | = 


j 来 证 明 序列 以 概率 1 收敛 的 常 / 


F: Xn/ 环 以 概率 1 收敛 


是 另 一 个 独立 同 分 布 的 随机 变 


< 
机 
a 
号 


以 概率 1 收敛 于 常数 c, 证 明 该 序列 依 概率 收敛 于 常数 c. 
解 ”定义 事件 C = {YY 收敛 于 c}， 由 假设 可 知 P 


>》 了 E[z]. 


{1 一 d < 是 的 


方法 . 为 计算 半 > 站 , 的 期 望 , 人 


LT 


18*. 


F 式 成 立 的 原因 是 期 望 和 无 穷 和 可 以 交换 顺序 . 当 随 机 变量 序列 是 非 负 值 , 就 是 著名 的 
单调 收敛 定理 . 这 是 概率 论 中 的 重要 结论 , 该 定理 的 证 明 超出 本 书 的 范围 
解 ” 无 穷 和 并 se Y, 必定 以 概率 1 有 界 . 事实 上 , 如 果 这 无 穷 和 等 于 无 穷 大 的 概率 大 
于 0, 则 其 期 望 一 定 也 是 无 穷 大 . 但 是 如 果 六 任何 数值 序列 的 无 穷 和 是 有 界 的 话 , 那么 
该 序列 一 定 收 伊 于 0 所 以 事件 {w : Y,(w) 0} 的 概率 为 1 即 区 以 概率 工 收敛 于 0. 
考虑 伯 努 利 随 机 变量 序列 Xu， 记 pr = P(X = 1) 为 第 n 次 试验 成 功 的 概率 . 如 果 
并 > ,pa < co, 证 明成 功 的 总 次 数 以 概率 1 有 界 . (与 第 1 章 习题 48(b) 的 结果 比较 ). 
解 ”利用 单调 收敛 定理 (见习 题 的 备注 ) 可 得 


[> = Db -Dr < eco. 


所 以 
> Xn < oo 
我 二 填 


以 概率 1 成 立 . 所 以 成 功 的 总 次 数 以 概率 1 有 界 . 

强大 数 定律 的 证 明 . 假设 Xi, X2,.…. 是 独立 同 分 布 的 随机 变量 序列 , 且 了 LX3 < co, 证 
明 强 大 数 定律 . 
解 ”注意 到 E[X 舟 < co 下 含 着 X; 的 期 望 是 有 限 的 . 事实 上 , 利用 不 等 式 |z| < 1 十 x2“ 


EI[Xil] < E[1+ XH =1+EIXHN < oo. 
先 假设 E[X;] = 0. 下 面 证 明 


我 们 有 


家 4 n nn nn nn 
a 十 ee Xn) | 六 》 》 》 》 BLY, Xi Xi Xal. 
il=1 io=1 is=1 i4=1 


现在 考虑 以 上 和 式 中 的 各 项 . 如 果 项 中 某 一 下 标 与 其 他 下 标 不 同 , 则 该 项 为 0. 比如 , 计 
与 io、is、ia 都 不 相同 , 则 E[Xii] = 0 列 含 着 


E[Xi, Xis Xis Xia] 一 E[Xii |E[Xi, Xi Xi] =0. 


所 以 和 式 中 非 零 项 要 么 是 ELX 鸭 (共有 n 项 ), 要 么 是 E[X2X3] (i 关 站 . 现在 计算 后 者 
有 多 少 项 . 获得 这 种 形式 有 三 种 方式 : 订 = io 闫 i3 = 二 i4, 或 者 设 = is 关 i2 = 二 i4, 或 者 
计 二 i4 关 i3 二 iz. 在 这 三 种 方式 的 每 一 种 方式 中 , 第 一 对 指标 共有 n 种 选择 , 第 二 对 指 
标 共 有 n 一 1 种 选择 , 故 每 一 种 方式 共有 n(n 一 1) 项 . 综合 这 三 种 方式 , 一 共有 3n(n 一 1) 
项 . 故 


(Kit Kn) |  nELXI] + 3n(n — 1)ELX? X32] 


E 
n4 n4 
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使 用 不 等 式 zy < (z2 十 92)/2, 可 得 E[X?X2] 入 了 [X3. 故 


F (XI 十 .十 和 过 nE[X{] + 3n(n — 1)E[XE) 3n?2E[X < 3EEX1 
n4 的 n4 n4 5 n2 
于 是 
[二 C+ 二 Xn) | 之 CR ~ 3 
EIS》, 二 = > EI | [X1] < o%. 
Cn=1 vp n=1 


最 后 一 步 使 用 了 熟知 的 性 质 六 2 ,mn 2 < oo. 这 就 证 明了 (Xi 十 … 十 Xn)*/ns 以 概率 

1 收敛 于 0. (参见 习题 16). 所 以 (Xi 十 … 十 Xn)/n 以 概率 1 收敛 于 0. 即 证 明了 强大 

现在 考虑 一 般 的 情况 : X; 的 期 望 非 零 . 由 上 述 证 明 方法 可 得 (Xi 十 … 十 Xn 一 
nE[X1])/n 以 概率 1 收敛 于 0, 故 (Xi 十 … 十 Xn)/n 以 概率 1 收敛 于 E[X1]. 
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随机 过 程 是 处 理 包含 时 间 以 及 数据 序列 的 概率 模型 . 比如 随机 过 程 可 用 于 如 


下 数据 序列 建 模 : 


(a) 每 天 的 股票 价格 数据 序列 ; 
(b) 足球 比赛 得 分 数据 序列 ; 
(c) 机 器 失效 时 间 数 据 序列 ; 
(d) 交通 网 络 中 的 每 个 点 的 交通 负荷 数据 序列 ; 
(e) 雷达 对 一 架 飞 机 的 定位 数据 序列 . 
序列 中 的 每 个 数据 都 视 为 一 个 随机 变量 , 所 以 简单 地 说 , 随机 过 程 就 是 一 串 (有 限 


或 者 无 限 ) 随机 变量 序列 , 与 概率 的 基本 概念 没有 本 质 的 区 别 . 设 在 某 个 试验 的 样 
本 空间 中 的 每 一 个 试验 结果 , 对 应 着 一 个 数列 , 这 个 数列 


(a) 我 们 更 倾向 于 强调 过 程 中 产 


未 来 价格 与 历史 价格 是 什么 关系 ? 
(b) 我 们 对 整个 过 程 中 长 期 均值 感 兴趣 . 比如 , 有 多 大 比例 的 时 间 , 机 器 处 于 闲 


置 ? 


的 数据 序列 之 


王 


中 的 每 一 个 数 , 都 对 应 着 
但 是 , 随机 过 程 还 是 跟 以 前 强调 的 随机 变量 序列 有 明显 的 区 别 , 主要 表现 在 如 


间 的 相关 关系 . 比如 , 股票 的 


(c) 有 时 需要 刻画 某 些 边界 事件 的 似 然 或 者 频率 . 比如 在 给 定 的 时 间 内 , 电话 


出 的 频率 是 多 少 ? 


系统 里 所 有 的 电路 同时 处 于 忙碌 状态 的 概率 是 多 少 ? 计算 机 网 络 


随机 过 程 的 种 类 非常 多 , 但 本 书 只 讨论 两 类 重要 的 随机 过 程 . 
(i) 到 达 过 程 : 我 们 感 兴趣 的 是 某 种 “到 达 ” 特 性 是 否 发 生 . 比如 , 接收 器 接收 
信号 的 时 刻 , 生产 线 上 的 工作 完成 时 刻 , 商 ) 


们 重点 研究 相 邻 到 达 时 间 ( 即 两 次 到 达 之 
在 6.1 节 , 我 们 考虑 到 达 时 间 是 离 
程 . 在 6.2 节 , 我 们 考虑 到 达 时 间 是 ; 


程 . 


@ 这 里 我 们 强调 的 是 , 在 随机 


间 


直 顾 客 的 购买 行为 的 实施 时 刻 , 等 等 . 


缓冲 器 数据 浇 


j 的 时 间 ) 是 相互 独立 的 随机 变量 的 模型 . 


的 情形 , 相 邻 时 间 服 从 几何 分 布 , 即 伯 努 利 过 


连续 的 ; 


青 形 , 相 邻 时 间 服 从 指数 分 布 , 即 泊 松 过 


过 程 中 产生 的 随机 变量 都 是 通常 的 随机 变量 , 它们 都 定义 在 一 个 相同 的 样 


本 空间 上 ， 相 应 的 概率 规 和 


只 要 求 明确 


些 联 合 分 布 之 间 应 该 具有 某 种 相 容 性 . 


无 误 地 确定 所 有 随机 变量 集合 的 任何 子 集 的 联合 分 布 , 而 这 
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(区 马尔 可 夫 过 程 : 考虑 数据 在 时 间 点 上 演化 , 而 且 未 来 数据 的 演化 与 历史 数 
据 有 概率 相关 结构 .比如 , 股票 的 未 来 价格 明显 依赖 于 过 去 的 价格 . 但 是 在 马尔 可 
夫 过 程 中 , 我 们 假设 一 类 特殊 的 相关 : 未 来 的 数据 只 依赖 于 当前 的 数据 , 而 与 过 去 
的 数据 无 关 . 对 于 马尔 可 夫 过 程 , 概率 统计 学 家 积累 了 丰富 的 研究 成 果 , 处 理 方法 
也 已 经 成 熟 , 这 是 第 7 章 讨论 的 主题 . 


6.1 ” 伯 努 利 过 程 


伯 努 利 过 程 可 视 为 独立 投掷 硬币 序列 , 而 且 每 次 投掷 便 币 正面 彰 上 的 概率 都 是 
p, 0 <p<1. 一 般 而 言 , 伯 努 利 过 程 是 由 一 串 伯 努 利 试验 组 成 . 每 次 试验 以 概率 p 
产生 数据 1( 成 功 ), 以 概率 1 一 p 产生 数据 0 (失败 ), 而 且 跟 试验 序列 中 的 其 他 试验 
是 相互 独立 的 . 

当然 , 投掷 便 币 只 是 对 独立 二 进 制 输出 数据 的 一 个 范例 说 明 . 比如, 伯 努 利 过 
程 经 常用 于 对 诸如 顾客 到 来 , 服务 中 心 找 到 工作 等 系统 进行 建 模 . 这 里 , 时 间 被 离 
散 化 为 若干 时 间 段 , 在 第 段 时 间 内 , 至 少 有 一 个 顾客 到 达 服 务 中 心 , 就 视 为 第 天 
次 试验 “成 功 ”. 因此 , 我 们 常常 使 用 “到 达 ” 这 个 词语 , 而 不 用 “成 功 ”, 这 是 由 实 
际 背 景 决定 的 . 

我 们 用 更 加 正式 的 语言 描述 如 下 , 伯 努 利 过 程 为 一 串 相互 独立 的 伯 努 利 随机 变 
量 序列 Xi,… ,X， 且 对 任意 的 i,，” 


P(X; = 1) =P( 第 i 次 试验 成 功 ) = yp， 


P(Xi = 0) = 了 (第 ; 次 试验 失败 ) = 1 一 yp. 


在 到 达 随 机 过 程 中 , 人 们 常常 感 兴趣 的 是 在 一 定时 间 内 总 到 达 次 数 , 或 者 首次 
到 达 的 时 间 . 对 伯 努 利 过 程 , 前 儿童 里 已 经 得 到 许多 结果 , 现在 总 结 如 下 . 


与 伯 努 利 过 程 相 关 的 随机 变量 及 其 性 质 
。 服从 参数 为 n 和 p 的 二 项 分 布 . 这 是 n 次 相继 独立 的 试验 成 功 的 总 次 数 
S 的 分 布 . 它 的 分 布 列 、 期 望 和 方差 是 


@ 有 限 个 随机 变量 的 独立 性 , 可 以 推广 到 一 串 无 限 个 随机 变量 序列 的 独立 性 : 如 果 对 任意 有 限 的 n, 随 
机 变量 X1,… ,Xn 是 独立 的 . 直观 上 看 , 独立 性 意味 着 获得 任意 有 限 子 集 的 随机 变量 的 信息 , 都 不 
能 对 其 他 变量 提供 任何 概率 信息 , 即 后 者 变量 的 条 件 分 布 函 数 与 无 条 件 分 布 函数 是 相同 的 . 
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。 服 从 参数 为 p 的 几何 分 布 . 这 是 相互 独立 重复 的 伯 努 利 试验 首次 成 功 的 
时 刻 了 的 分 布 . 它 的 分 布 列 、 期 望 和 方差 是 


pT(t) = p(1 — p)', t= 1,2... ) 


6.1.1 ”独立 性 和 无 记忆 性 
伯 努 利 过 程 中 的 独立 性 假设 , 暗含 了 很 多 重要 的 特征 , 比如 无 记忆 性 (无 论 过 去 
发 生 了 什么 , 都 不 能 对 未 来 试验 的 结果 提供 任何 信息 ). 对 这 个 假设 进行 直观 和 正确 
的 了 解 非 常 有 用 , 这 能 帮助 人 们 很 快 地 解决 一 些 非常 难 的 问题 . 在 本 小 节 里 , 我 们 
将 加 深 这 种 直觉 . 
我 们 从 与 伯 努 利 过 程 中 的 某 些 试验 结果 相关 的 随机 变量 入 手 . 比如 , 随机 变量 
2 = (XI +TXs)X6X7 涉及 的 是 第 1,3,6,7 次 试验 结果 . 现在 假定 我 们 研究 这 类 随机 
过 程 的 两 个 随机 变量 , 而 它们 所 涉及 的 试验 结果 没有 重合 , 则 这 两 个 随机 变量 一 定 
是 独立 的 . 这 推广 了 第 2 章 里 的 结论 : 如 果 两 个 随机 变量 Z 和 独立 , 则 它们 的 
任何 函数 g(V) 和 h(V) 也 是 独立 的 . 
例 6.1 (a) 设 U 是 第 1~5 次 试验 的 成 功 总 次 数 ,V 是 第 6~10 次 试验 的 成 功 总 次 
数 . 则 UV 和 了 独立 . 这 是 因为 也 = Xi 十 … 十 Xs5, VV 二 Xe 十.… 十 X10, 而 且 集 合 
{Xi1,... , Xs} 与 {X6…… , X10} 没有 相同 的 元 素 . 
(b) 设 U 是 在 奇数 次 试验 序列 中 首次 成 功 的 时 刻 ,V 是 在 偶数 次 试验 序列 中 首 
次 成 功 的 时 刻 . UV 是 由 奇数 次 试验 的 结果 序列 Xi1, Xs,… 所 决定 的 , 而 V 是 由 偶 
数 次 试验 的 结果 序列 Xo, X4,… 所 决定 的 . 而 这 两 个 试验 结果 序列 没有 相同 的 元 
素 , 所 以 , UV 和 了 是 相互 独立 的 . 
现在 假设 伯 努 利 过 程 运行 了 7” 次, 得 到 了 观测 数据 Xi1, 2,… , XX. 未 来 试验 
序列 Xii, Xn+2 仍然 是 独立 的 伯 努 利 试验 , 形成 了 新 的 伯 努 利 过 程 . 进一步 ， 
这 些 未 来 试验 与 过 去 的 试验 都 是 独立 的 . 所 以 , 我 们 可 以 得 出 这 样 的 结论 : 从 任意 
一 个 时 刻 开 始 , 未 来 也 可 以 用 相同 的 伯 努 利 过 程 来 建 模 , 而 且 与 过 去 相互 独立 . 人 
们 称 这 种 伯 努 利 过 程 性 质 为 重新 开始 . 
注意 到 伯 努 利 过 程 首次 成 功 时 试验 的 总 次 数 了 服从 几何 分 布 . 假设 我 们 已 经 
观测 过 程 ” 步 , 但 是 没有 “成 功 ”的 结果 出 现 . 那么 人 们 对 直到 出 现 “ 成 功 ” 的 结果 
进行 余下 的 试验 次 数 工 一 n 有 什么 结论 呢 ? 既然 未 来 的 过 程 (n 次 之 后 的 过 程 ) 与 
过 去 的 过 程 是 独立 的 , 而 且 重 新 构成 一 个 “重新 开始 ”的 伯 努 利 过 程 , 所 以 , 直到 出 
现 “ 成 功 ” 的 结果 的 未 来 试验 次 数 仍然 是 相同 的 几何 分 布 . 即 


P(T—-n=tT>n)=(1-p) p=P(T=t), t=1,2,... 


St 
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人 们 称 这 种 性 质 为 无 记忆 性 质 . 当然 这 个 性 质 可 以 运用 条 件 概 率 的 定义 来 进行 数 
学 的 推导 , 但 是 刚才 这 种 推理 过 程 更 加 直观 . 


与 伯 努 利 过 程 相 关 的 独立 性 质 
。 对 任意 给 定 的 时 刻 n, 随机 变量 序列 X41, XX。42,… (过 程 的 将 来 ) 也 是 
伯 努 利 过程 , 而 且 与 ,Xn (过 程 的 过 去 ) 独立 . 
。 对 任意 给 定 的 时 刻 n, 令 工 是 时 刻 n 之 后 首次 成 功 的 时 刻 , 则 随机 变量 
人 一 n 服从 参数 为 p 的 几何 分 布 且 与 随机 变量 Xi ,Xi, 独立 . 


例 6.2 计算 机 执行 的 任务 分 为 两 类 : 优先 任务 和 非 优 先 任务 . 计算 机 将 运行 时 间 
划分 为 互相 连接 的 时 间 小 区 间 , 每 个 小 区 间 称 为 “瞬间 ”(slot), 时 间 区 间 就 实现 了 
离散 化 . 计算 机 在 每 一 个 瞬间 只 有 两 个 状态 : 忙碌 或 空闲 . 这 样 计算 机 运行 状态 形 
成 一 个 随机 过 程 . 假定 各 个 瞬间 的 忙 闲 是 相互 独立 的 . 又 假定 在 每 个 瞬间 的 开始 ， 
优先 任务 以 概率 p 到 达 , 而 且 与 其 他 瞬间 是 独立 的 . 当 优 先 任务 到 达 的 时 候 , 计算 
机 执行 优先 任务 , 处 于 忙碌 的 状态 . 非 优先 任务 总 是 处 于 等 待 状态 , 只 有 在 没有 优 
先 任务 的 前 提 下 , 才 会 执行 . 当 计 算 机 执行 非 优先 任务 的 时 候 , 称 计 算 机 处 于 空闲 
的 状态 . 这 样 计 算 机 在 各 瞬间 的 状态 形成 一 个 随机 过 程 . 

在 这 种 背景 下 , 人 们 关心 的 是 非 优 先 任 务 运行 的 时 间 间 隔 的 概率 特性 . 我 们 称 
顺序 相连 的 瞬间 形成 的 时 间 区 间 称 为 段 , 段 的 长 度 就 是 这 个 时 间 区 间 内 的 瞬间 数 . 
现在 我 们 来 推导 下 列 随 机 变量 的 分 布 列 、 均 值 和 方差 (参见 图 6.1). 

(a) T== 首 个 空闲 瞬间 的 时 间 下 标 ; 
(b) B = 首 个 忙碌 段 的 时 间 长 度 ( 即 忙碌 段 中 含有 的 忙碌 瞬间 的 个 数 ); 

(c) T= 首 个 空闲 段 的 时 间 长 度 ; 
(d) Z = 第 一 个 忙碌 瞬间 之 后 直到 出 现 首 个 空闲 瞬间 的 瞬间 数 ( 含 这 个 空闲 瞬 
间 , 但 不 含 第 一 个 忙碌 瞬间 ). 


I 
[slsls| ilils|lsls|s|lrlililils| 
A 时 间 
T 忙碌 段 室 闲 段 
aa 
Z 
I B 


> 


[Lili I|1i|i BlB|B|s|ili 工 | 工 B| 
> < 


中 Z 时 间 


图 6.1 ”随机 变量 示意 图 , 例 6.2 中 的 忙碌 时 间 段 和 空闲 时 间 段 ， 在 上 图 中 , 了 = 4,B = 
3,T 二 2,2Z = 二 3. 在 下 图 中 ,T=1,IT=5,B=4,2Z=4 
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T 是 服从 参数 为 1 一 p 的 几何 分 布 随机 变量 , 其 分 布 列 是 
pr(k) = 21(L — »), k=1,2,..,， 


均值 和 方差 是 


现在 我 们 考虑 第 一 个 忙碌 时 间 段 ， 起 始 于 第 一 个 忙碌 瞬间 ( 称 为 瞬间 工 ， 图 
6.1 的 上 图 工 = 1, 下 图 二 = 6.) 直到 出 现下 一 个 空闲 瞬间 (包括 这 个 瞬间 ) 的 瞬间 
数 Z 与 7 了 7 具有 相同 的 分 布 , 这 是 因为 伯 努 利 过 程 从 时 间 工 十 1“ 重 新 开始 ”. 然后 
我 们 注意 到 Z = B, 所 以 B 与 也 具有 相同 的 分 布 列 . 

如 果 我 们 将 空闲 瞬间 和 忙碌 瞬间 的 位 置 对 换 , 把 p 换 成 1 一 p, 则 第 一 个 空闲 
段 的 长 度 了 与 第 一 个 忙碌 段 的 长 度 具 有 一 样 的 分 布 列 , 所 以 


1 
pr(k)= (1— pip, k=1,2,..., EH]= > var(T) = 


最 后 注意 到 上 述 结论 对 第 二 , 三 , 四 等 忙碌 (或 空闲 ) 段 都 是 成 立 的 . 所 以 计算 
得 出 的 分 布 列 也 可 以 应 用 在 任何 第 i 个 忙碌 (或 空闲 ) 段 . 

如 果 我 们 从 时 间 wn 才 开 始 观 测 伯 努 利 过 程 , 这 等 价 于 我 们 重新 观察 一 个 新 的 
伯 努 利 过 程 . 进一步 , 我 们 可 以 从 任意 随机 的 时 间 N 开始 观测 伯 努 利 过 程 , 得 到 的 
结论 是 一 样 的 , 即 重新 观察 一 个 伯 努 利 过 程 . 当然 这 里 的 入 完全 由 过 程 的 过 去 决 
定 , 不 能 对 未 来 提供 任何 信息 . 事实 上 , 在 例 6.2 中 , 在 讨论 2 的 分 布 列 时 , 我 们 强 
调 了 过 程 是 从 工 十 1 个 瞬间 重新 开始 的 , 运用 了 这 个 性 质 , 就 可 以 得 到 2 与 了 同 
分 布 的 结论 . 现在 再 举 一 个 例子 , 考虑 一 个 轮 盘 赌 轮 子 , 出 现 红色 就 视 为 成 功 . 从 任 
意 一 次 旋转 (比如 , 第 25 次 ) 开始 记录 数据 , 它 遵从 的 概率 特征 与 从 连续 五 次 旋转 
出 现 红 色 就 立即 开始 记录 数据 所 遵从 的 概率 特征 是 完全 一 样 的 . 这 两 个 例子 , 就 是 
过 程 随 时 重新 开始 的 例子 (尽管 我 们 可 以 发 现 有 些 赌 徒 男 有 他 们 的 解释 )， 下 面 的 
例子 说 明 同 样 的 结论 , 但 是 更 正式 一 些 . 
例 6.3 (随机 时 间 的 重新 新 开始 ) ” 设 NN 是 第 一 次 遇 到 连续 两 次 成 功 的 时 刻 ( 即 ， 
NN 是 满足 X; = Xi_1 = 1 的 第 一 个 引 . 现 求 概率 P(XN+1 = XN+42 = 0), 即 紧 接着 
两 次 实验 都 失败 的 概率 . 

直观 上 看 , 一 旦 条 件 XN_1 = XN = 1 满足 的 话 , 从 那 时 开始 , 未 来 的 过 程 由 独 
立 的 伯 努 利 实验 组 成 . 所 以 , 关于 未 来 事件 的 概率 与 重新 开始 的 伯 努 利 过 程 的 相应 
概率 是 一 样 的 , 所 P(XN41 = XN+42 = 0) = (1 一 p)?2. 

现在 对 上 述 结论 进行 严格 的 证 明 . 注意 , N 是 一 个 随机 变量 , 利用 全 概率 公式 


es 


得 到 


P(XN+1= XN+2=0)= > P(N=nP(XN41 = XN+2 = 0IN=n) 


= P(N=n)P(Xni = Xnt2 =0|IN =n). 


因为 NN 确定 后 , 事件 {N = n} 发 生 , 当 且 仅 当 Xi1,… ,Xn 满足 某 个 特定 的 条 
件 , 而 这 些 随机 变量 与 X41, Xn+2 是 独立 的 , 所 以 
P(Xn41 = Xni2 =0IN=n)= P(X = Xn42 =0)= (1—p)*. 


故 


P(XN41= XN+2=0)= >》 ,P(N=n)(1 -p= (1—p). 
二 
6.1.2 ” 相 邻 到 达 间 隔 时 间 
与 伯 努 利 过 程 相关 的 一 个 重要 的 随机 变量 就 是 第 & 次 成 功 (或 到 达 ) 的 时 间 ， 
记 为 远 . 与 之 相关 的 变量 是 第 次 相 邻 到 达 的 间隔 时 间 , 记 为 ZL. 即 所 谓 次 相 
邻 到 达 的 时 间 是 第 一 1 到 达 之 后 到 第 次 到 达 之 间 所 需 的 总 时 间 . 它们 满足 如 
下 关系 


了 1 = Yr Tx = Yi — Yr, k= 2,3,..., 


如 图 6.2 所 示 . 同时 它们 还 满足 


Y= 


鸣 
| 0|1 0|0 0o|o|lilolililo 0 | 
CC A 二 下 

T Z Te 时 间 


图 6.2” 相 邻 到 达 时 间 示 意图 , 图 中 1 代表 一 个 到 达 . 在 这 个 例子 中 , TT = 3, TD = 5, Ts 
2, 了 ==1. 另外 ,页 =3, Y=8, =10, 站 =11 


我 们 已 经 得 到 首次 成 功 的 时 间 五 服从 参数 为 p 的 几何 分 布 . 有 了 第 一 次 在 时 
间 瑞 的 成 功 之 后 , 未 来 是 一 个 新 的 伯 努 利 过 程 . 利用 重新 开始 的 原理 , 下 次 成 功 所 
需 的 试验 次 数 ZT 与 五 有 相同 的 分 布 . 进一步 , 过 去 的 试验 (直到 , 且 包 括 时 间 耳 ) 
与 未 来 的 试验 (从 时 间 了 十 1 开始 ) 是 独立 的 . 既然 有 仅仅 由 未 来 的 试验 决定 , 所 
以 三 与 五 独立 类似 继续 下 去 , 我们 可 以 得 到 随机 变量 守 ,,T,… 都 是 相互 
独立 的 , 而 且 具 有 相同 的 几何 分 布 . 
这 种 重要 的 方法 , 可 以 给 伯 努 利 过 程 一 个 等 价 的 另 一 种 描述 方法 , 这 种 描述 方 
法 有 时 更 方便 . 


6.1 伯 努 利 过 程 ”261 


伯 努 利 过 程 另 一 种 描述 

(1) 开始 于 一 串 相互 独立 的 、 参 数 为 p 的 几何 分 布 随机 变量 序列 ,TD,…， 
它们 是 相 令 到达 时 间 间 隔 . 

(2) 观测 成 功 (或 到 达 ) 的 时 间 为 了 ,了 十 了 ,也 十 DH 十 TH, 等 等 . 


例 6.4 ”观测 数据 表明 雨天 之 后 , 再 次 下 雨 所 经 过 的 天 数 服 从 参数 为 p 的 几何 分 
布 , 而 且 与 历史 数据 独立 . 求 出 本 月 第 5 天 和 第 8 天 同时 下 雨 的 概率 . 
如 果 我 们 用 几何 分 布 的 分 布 列 来 解决 这 个 问题 , 那么 方法 会 非常 繁琐 . 但 是 ， 
如 果 我 们 将 下 雨 看 为 “到 达 ”, 则 我 们 就 可 以 对 天 气 描 述 为 一 个 伯 努 利 过 程 . 所 以 ， 
任何 一 天 下 雨 的 概率 是 p, 而 且 与 其 他 的 天 是 独立 的 . 特别 地 , 在 第 5 天 和 第 8 天 
同时 下 雨 的 概率 就 是 p2. 
6.1.3 ”第 次 到 达 的 时 间 
第 成 功 (或 到 达 ) 的 时 间 去 , 等 于 个 独立 同 分 布 、 服 从 几何 分 布 的 随机 变 
量 之 和 , 即 到 = 用 十 … 十 用 .这样 我 们 就 可 以 利用 下 表 计 算 蒜 的 期 望 、 方 差 、 
分 布 列 . 
第 次 到 达 的 时 间 的 性 质 

e。 第 到 次 到 达 的 时 间 等 于 前 天 个 相 邻 到 达 时 间 之 和 


= T+ + 


而 且 了 ,… ,7% 独立 同 分 布 , 服从 参数 为 p 的 几何 分 布 . 
。 了 的 期 望 和 方差 分 别 为 


E[Y:] = E[D] + + ET] = - 
var[Yi] = var[Ti] + + var[T| = 3 p) 


t—1 如 
py.(t) = (£1) t=k,k+1,.., 


这 就 是 著名 的 阶 数 为 的 帕斯卡 分 布 . 


下 面 我 们 来 证 明 到 的 分 布 列 . 首先 注意 到 二. 不 小 于 k. 对 上 > 用 注意 到 事 
件 {= 妇 ( 第 次 成 功 的 时 间 是 如 发 生 当 且 仅 当下 面 两 个 事件 同时 发 生 : 
(a) 事件 4: 第 t 次 试验 成 功 了 ; 
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(b) 事件 B: 在 前 t 一 1 次 试验 中 , 恰好 成 功 了 天 一 1 次 , 
这 两 个 事件 发 生 的 概率 分 别 是 


和 


另外 , 这 两 个 事件 是 相互 独立 的 (这 是 因为 第 t 次 试验 成 功 与 否 , 与 前 t+ 一 1 次 试验 
的 结果 是 独立 的 ), 所 以 


pyi(t) =P(Yi =) =P(ANB) =P(A)P(B) = (人 1 jz 有 

证 毕 . 
例 6.5 “在 篮球 比赛 中 , 在 每 分 钟 内 艾 丽 西亚 犯 一 次 规 的 概率 是 p, 不 犯规 的 概率 
是 1 一 p. 在 不 同 的 分 钟 内 是 否 犯规 是 相互 独立 的 . 艾 丽 西亚 犯 了 6 次 规 后 , 就 会 被 
罚 出 场 , 否则 的 话 就 能 比赛 30 分 钟 . 那么 艾 丽 西亚 参加 篮球 比赛 的 时 间 的 分 布 列 
是 什么 ? 

我 们 对 犯规 的 次 数 建立 伯 努 利 过程 , 参数 为 p. 艾 丽 西亚 参加 比赛 的 时 间 为 2， 
如 果 她 犯规 次 数 为 6, 2 就 等 于 1; 如 果 Ww > 30, 2 就 等 于 30, 即 2 = min{Y6,30}. 
7 的 分 布 是 阶 数 为 6 的 帕斯卡 分 布 , 即 


py;s(t) = (5) -nr t= 6,7,... 
为 求 2 的 分 布 列 pz(z), 我 们 首先 考虑 z 位 于 6 ~ 29 的 情形 . 在 这 个 区 间 内 ， 


[二 


pz(z) =P(Z =z)=P(Y = 2) (5) -ps, z = 6,7,... ,29. 


Z = 30 的 概率 则 由 下 式 确定 


29 
pz(30)=1— pz(2) 
二 


6.1.4” 伯 努 利 过 程 的 分 裂 与 合并 


伯 努 利 过 程 每 次 到 达 的 概率 为 p, 现在 考虑 如 下 的 分 裂 : 每 当 有 一 个 到 达 时 , 我 
们 选择 或 者 保留 下 来 (概率 为 g), 或 者 抛弃 (概率 为 1 一 g), 见 图 6.3. 假设 保留 还 是 
抛弃 的 决定 在 不 同 的 到 达 时 间 是 相互 独立 的 . 如 果 我 们 集中 研究 保留 下 来 的 过 程 ， 
那么 可 以 看 到 , 保留 下 来 的 过 程 仍然 是 个 伯 努 利 过 程 . 在 每 个 瞬间 , 发 生 一 次 被 留 
下 到 达 的 概率 是 pq, 而 且 跟 其 他 的 瞬间 是 相互 独立 的 . 相同 的 原因 , 被 抛弃 的 到 达 
过 程 也 是 伯 努 利 过 程 , 在 每 个 瞬间 发 生 被 抛弃 的 到 达 的 概率 是 p(1 - 9 
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图 6.3 伯 努 利 过 程 的 分 裂 示意 图 


反之 , 如 果 有 两 个 独立 的 伯 努 利 过 程 (参数 分 别 是 p 和 9), 然后 我 们 采取 如 下 


方法 进行 合并 . 一 个 到 达 被 收录 到 合并 的 过 程 中 , 当 且 仅 当 在 这 两 个 原始 的 过 程 中 ， 


至 少 有 一 个 是 到 达 状 态 . 那么 这 个 事件 发 生 的 概率 是 p 十 g 一 pg [等 于 1 减 去 两 个 


过 程 都 没有 发 生 的 概率 (1 一 p)(1 一 q)]. 既然 不 同 的 瞬间 两 个 过 程 是 相互 独立 的 , 合 
并 后 的 不 同 的 瞬间 仍然 是 独立 的 . 所 以 合并 后 的 过 程 仍 是 伯 努 利 过 程 , 每 次 成 功 的 


概率 是 p 十 gq 一 pg, 见 图 6.4. 
伯 努 利 过 程 力 lol | 1 11leel LT > 
| | 时 间 
合并 的 
伯 努 利 过 程 | lel lol | | lele| | | 19| | 
(p+4q—p9) | 时 间 
© 


伯 努 利 过 程 (9 一 L111lel 1| lel111lel| > 


时 间 


图 6.4 伯 努 利 过 程 的 合并 示意 图 


伯 努 利 过 程 (或 其 他 过 程 ) 的 分 裂 和 合并 在 实际 中 经 常 发 生 . 比如 , 两 个 机 器 


工作 中 心 可 能 有 零 部 件 到 达 流 水 线 , 然后 把 每 个 零 部 件 随机 分 开 到 某 一 个 机 器 . 反 


之 , 一 个 机 器 可 能 面临 许多 不 同类 型 的 零 部 件 , 然后 合并 成 一 条 流水 线 . 


6.1.5 ”二 项 分 布 的 泊 松 近似 


n 次 独立 的 伯 努 利 试验 成 功 的 次 数 是 一 个 二 项 分 布 的 随机 变量 , 参数 为 n 和 
D, 期 望 为 np. 在 本 小 节 里 , 我 们 集中 处 理 一 类 特殊 的 情况 : n 充分 大 , 而 p 很 小 , 均 
值 np 比较 适中 . 如 果 考 虑 的 不 是 离散 时 间 而 是 连续 时 间 , 那 是 6.2 节 讨 论 的 主题 . 
例如 , 人 们 考虑 任何 一 天 内 发 生 飞 机 事故 的 总 数 , 飞机 飞行 次 数 n 很 大 , 但 是 每 次 
飞机 发 生 事故 的 概率 p 很 小 . 或 者 考虑 一 本 书 上 的 总 共 错 误 数 : 单词 非常 多 , 但 是 


拼 错 的 概率 很 小 . 


数学 上 , 我 们 可 以 这 样 处 理 , 让 n 增长 , 但 是 同时 缩小 p, 这 样 可 以 保持 它们 的 


乘积 np 是 一 个 固定 值 从 极限 意义 上 看 , 二 项 分 布 的 分 布 列 可 以 简化 为 


自 松 分 
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布 列 . 下 面 将 提供 精确 的 描述 , 注意 , 泊 松 分 布 列 已 在 第 2 章 里 推导 出 了 很 多 很 好 
的 性 质 . 


二 项 分 布 的 泊 松 近似 


k 
pz() =e 人， 
均值 和 方差 是 
EIZ] = 入， 


nl 


ps(k) = 


k= 0,1,2,..- 


var(Z) = A. 


。 当 n 一 00,p == 和/n 时 , 二 项 分 布 的 概率 


k(1 


(一 


收敛 到 pz(k), 其 中 入 是 


。 一 般 而 言 , 泊 松 分 布 是 二 
大 , p 非常 小 . 


现在 我 们 验证 


i 
常数 ,大 是 任 总 
项 分 布 的 一 个 很 好 的 近似 , 只 要 入 = np, n 非常 


p)™ 


固定 的 非 负 整 数 . 


。 参数 为 的 泊 松 分 布 的 随机 变量 2 取 非 负 整 数值 , 其 分 布 列 如 下 


泊 松 近似 的 了 


ps(k) = 


nl 
ni 
_ n(n—1).…(n—k+i+1 


FE 确 性 , 设 入 = np, 则 


入 R 


多 一 天 十 工 


nk 


We 


k 
i 


| 
十 1 


所 以 对 


固定 的 K 


时 


n 一 co 时 我 们 有 


例 6.6 任 


赁 经 验 知 , 当 n > 100、p < 0.01、 
二 
k! 


和 A 2) 


Q@ 这 里 我 们 使 用 了 著名 的 公式 limx_,oo (1 一 
所 以 limn co(1 一 信 ) 二 


e 


n—k 
)》 


= np 时 , 泊 松 近似 


k=0,1,2,... ,Nn 


4) 一 el. 设 z=m/N 则 limnn co(1 一 人 )"/ > 一 


中 的 每 一 项 都 趋 于 1, 而 ] 
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的 精度 有 好 几 位 小 数 , 现在 检验 一 下 近似 的 效果 , 看 看 下 面 这 个 例子 
此 界 冠军 .他 在 一 
斯 性 


加 里 . 卡 斯 由 罗 夫 是 国 


率 术语 来 说 , 我 们 假设 他 每 局 获胜 
算 他 获胜 100 场 、98 场 、95 场 和 
我 人 


p= 二 0.01. 所 以 他 获胜 100 场 、98 场 、95 场 和 901 


际 象棋 1 
余 爱 好 者 对 弈 . 从 历史 的 经 验 来 看 , 99% 的 比赛 都 是 
的 概率 为 0.99, 而 
90 场 的 概率 分 另 
] 对 他 总 共 失 败 的 场 数 X 进行 建 模 , 这 是 一 个 二 项 分 布 , 参数 为 n = 100， 
声 的 概率 分 别 是 


个 表演 赛 


px(0) =(1 — 0.01)100 = 0.366， 


100! 
一 一 一 0.012 
px(2) = g81210"0 
100! 
Dx(5) = o5151 
100! 
10) = 0.01™" 
px(10) = oo 


(1 — 0.01)% = 0.185, 
0.015(1 — 0.01) = 0.002 90， 


(1 — 0.01)” = 7.006 . 10-s. 


现在 我 们 来 检验 相应 的 泊 松 近似 , 参数 入 = 100 0.01 = 1. 即 


罗 夫 获胜 (月 
各 局 比赛 独立 ). 现在 我 们 计 


| 是 多 少 . 


PpP 同 时 与 100 名 业 
精确 的 概 


pz(0) =e- 了 = 0.368, 

pz(2) =e- = 0.184, 

pz(5) =e 上 = 0.003 06， 

二 人 _ 

pz(10) =e ee 1.001 . 1078. 
比较 一 下 二 项 分 布 的 px(k) 和 泊 松 分 布 的 pz(%k), 可 以 看 出 它们 对 应 的 结果 是 相近 
的 . 

现在 我 们 再 假设 卡 斯 帕 罗 夫 只 跟 5 名 对 手 同时 对 弈 , 但 是 这 次 对 手 的 水 平 高 ， 

卡 斯 帕 罗 夫 每 场 获胜 的 概率 只 有 0.9. 这 里 二 项 分 布 的 分 布 列 px(k) 中 , n = 5,p = 
0.1, 相应 的 泊 松 分 布 pz(k) 中 , 入 = np = 0.5: 
| k 0 1 2 3 4 5 
| px(k) 0.590 0.328 0.072 9 0.008 1 0.000 45 0.000 01 
| pz(k) 0.605 0.303 0.075 8 0.012 6 0.001 6 0.000 16 


从 上 表 可 看 出 , 近似 效果 虽 不 差 , 但 是 与 n = 100、p = 0.01 情形 下 的 近似 效 


相 比 , 精确 度 有 显著 的 下 降 . 


四 
个 
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例 6.7 有 ?7 个 字符 连 成 一 串 组 成 一 个 信息 包 , 在 一 个 有 噪声 的 通道 中 传输 . 每 个 
字符 有 P = 0.000 1 的 概率 在 传输 中 传 错 , 而 且 不 同 字符 的 传输 过 程 是 独立 的 . 问 
为 保证 在 传输 中 发 生 错误 的 概率 不 超过 0.001, 这 时 n 应 该 为 多 少 ? 

每 个 字符 的 传输 可 视 为 一 个 独立 的 伯 努 利 试验 . 所 以 整个 信息 包 发 生 错 误 传 


1—P(S=0)=1- (1—p)", 


其 中 5 为 错误 传输 的 字符 总 数 . 为 使 整个 信息 包 发 生 错 误 传输 的 概率 小 于 0.001， 
只 需 解 不 等 式 1 一 (1 一 0.000 1)” < 0.001, 即 


ln 0.999 


同样 我 们 也 可 使 用 泊 松 近似 的 方法 来 计算 P(S = 0), 即 P(S = 0) =e-^, 这 里 
入 = np = 0.000 1.n. 由 条 件 1 -er-0000 17 < 0.001 可 以 得 到 


_ In0.999 
0.000 1 


n 是 一 个 整数 , 两 种 方法 都 得 出 相同 的 结果 : n 最 多 是 10. 


= 10.005. 


6.2 泊 松 过 程 


跟 伯 努 利 过 程 相 比 , 泊 松 过 程 是 连续 时 间 轴 上 的 到 达 过 程 .通常 , 一 个 到 达 过 
程 在 应 用 上 无 法 将 连续 时 间 离 散 化 时 , 就 采用 泊 松 过 程 来 刻画 . 可 以 说 泊 松 过 程 是 
伯 努 利 过 程 的 连续 版 本 . 
现在 从 一 个 例子 来 看 这 种 连续 化 的 必要 性 . 考虑 一 个 城市 内 的 交通 事故 的 可 
能 模型 . 可 以 将 时 间 分 割 成 以 分 钟 为 单位 的 时 间 段 , 然后 开始 记录 下 每 分 钟 至 少 发 
生 了 一 次 交通 事故 的 “成 功 ”数据 . 假设 交通 事故 率 不 随时 间 而 发 生变 化 , 是 个 常 
数 , 则 在 每 个 时 间 段 内 发 生 事故 的 概率 是 相同 的 . 进一步 假设 (也 非常 合理 ) 在 不 
同 的 时 间 段 里 , 事故 发 生 是 相互 独立 的 . 这 样 得 到 的 成 功 数据 序列 就 是 一 个 伯 努 利 
过 程 . 注意 , 在 实际 生活 中 , 在 相同 的 一 分 钟 时 间 段 里 , 发 生 两 次 或 者 多 次 事故 是 非 
常 可 能 的 . 但 是 伯 努 利 过 程 不 能 记 清楚 到 底 发 生 了 多 少 次 事故 , 特别 地 , 它 无 法 计 
算 在 给 定 的 时 间 段 内 的 事故 发 生平 均 次 数 . 

克服 这 个 缺点 的 一 种 可 行 方法 是 把 时 间 段 选 得 非常 小 , 使 得 发 生 两 次 或 多 次 事 
故 的 概率 非常 小 , 以 致 可 以 忽略 . 但 是 多 少 才 算 小 ? 一 秒 钟 ? 还 是 一 毫秒 ? 为 避免 
这 种 随意 的 选择 , 人 们 更 喜欢 考虑 这 个 时 间 段 的 长 度 趋 于 零 的 情况 , 即 连续 型 时 间 
模型 . 


@ 统计 上 也 称 泊 松 过 程 为 点 过 程 . 译 者 注 
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连 


现在 考虑 


P(k,7)=P 


( 


注意 这 个 定义 的 内 涵 , 它 没有 指明 


0， 1, i 
的 解释 很 快 就 会 明白 


这 个 参数 的 重要 性 . 


的 分 布 律 就 是 P( 7) 


续 型 的 到 达 过 程 , 即 任意 的 实数 t 都 有 可 能 是 到 达 时 刻 . 我 们 定义 
在 时 间 段 长 度 为 7 的 时 间 内 有 ,大 个 到 达 ). 


区 间 的 位 置 , 这 意味 着 , 不 管 这 个 区 间 的 
哪儿 , 只 要 时 间 区 间 的 长 度 为 7, 这 个 区 间 内 的 到 达 数 
… 此 外 , 我 们 还 要 介绍 一 个 正 参数 和 , 称 之 为 过 程 的 到 达 率 或 者 强度 . 


泊 松 过 程 的 定义 


一 个 到 达 过 程 称 为 强度 为 和 的 泊 松 过 程 , 如 果 该 过 程 具有 如 
(a) (时 间 同 质 性 ) & 次 到 达 的 概率 P(k,7) 在 相同 长 度 7 的 时 间 段 内 都 是 一 


其 他 时 间 段 内 到 


样 的 . 
(b) (独立 性 ) 一 个 特定 时 间 段 内 到 达 的 数目 与 
立 的 . 


(c) (小 区 间 概 率 ) 概率 P(k,7) 满足 如 下 关系 


P(0,7) = 1— M+ o(7), 
P(1,7) = MT + 01(7), 


oe 


下 性 质 : 


| 达 的 历史 是 独 


人 


第 一 个 性 质 , 人 们 称 为 “到 达 ” 在 任何 时 候 都 
的 时 间 段 内 , 到 达 数 具有 相同 


是 


为 解释 第 二 个 性 质 , 考虑 一 个 时 间 长 度 为 + 一 t 


的 统计 性 质 , 即 具有 相同 的 分 布 和 
中 的 假设 : 对 所 有 的 试验 , 成 功 的 概率 都 是 p, 是 相对 应 的 . 


“等 可 能 ”的 . 
EE 


的 特殊 区 间 


t, 


在 任何 长 度 为 7 


. 这 与 们 努 利 过 程 


让. 在 这 个 时 间 


段 里 , 发 生 了 次 到 达 的 无 条 件 概率 是 P(KE, 习 一 必 . 假设 我 们 手 里 有 这 个 区 间 之 外 


的 完全 
生 了 大 次 到 达 的 条 
程 的 试验 独立 性 . 

第 三 个 性 质 非常 关键 . o(7) 和 ok(7) 
时 候 , 是 微不足道 的 ， 可 以 将 这 些 余 项 理 / 
O(r2) 项 . 所 以 , 对 非常 小 的 r, 到 达 一 次 
项 . 类 似 地 , 对 非常 小 的 r, 没有 到 达 的 概率 


| 


或 者 部 分 到 达 的 信息 . 那么 性 质 (b) 是 说 , 这 个 信息 是 无 用 的 : 在 [t, 刀 内 发 
牛 概率 仍 是 无 条 件 概率 P(k,t 一 力 . 这 个 性 质 类 比 于 伯 努 利 过 
项 是 指 它们 相对 r 而 言 , 当 7 非常 小 的 
为 P(k,7) 做 泰勒 展 天 
的 概率 大 致 是 Xr, 加 上 一 个 微不足道 的 
是 1- Xr, 到 达 两 次 或 更 多 次 的 概率 与 


时 , 展开 式 中 的 
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P(1,7) 相 比 是 可 以 忽略 的 . 
6.2.1 ”区间 内 到 达 的 次 数 
现在 开始 推导 泊 松 过 程 中 与 到 达 相 关 的 概率 分 布 . 首先 与 伯 努 利 过 程 建立 联系 
来 计算 一 个 区 间 内 到 达 次 数 的 分 布 列 . 
先 考虑 一 个 固定 的 长 度 为 + 的 时 间 区 间 , 将 它 分 成 7/6 个 小 区 间 , 每 个 小 区 间 
的 长 度 为 5, 5 是 一 个 非常 小 的 数 , 见 图 6.5. 由 性 质 (c) 可 知 , 任意 一 个 小 区 间 内 有 
两 次 或 更 多 次 到 达 的 概率 是 非常 小 的 , 可 以 忽略 不 计 . 而 且 由 性 质 (b) 知 , 不 同 的 
时 间 段 到 达 的 状况 又 是 相互 独立 的 . 更 进一步 地 , 在 每 小 区 间 内 , 到 达 一 次 的 概率 


大 致 是 X6, 没有 到 达 的 概率 大 致 是 1-- A6. 所 以 这 个 过 程 可 以 大 致 由 伯 努 利 过 程 来 
近似 . 当 5 越 来 越 小 , 这 个 近似 就 会 越 来 越 精确 . 
小 区 间 数 ， 每 个 小 区 间 内 到 达 数 的 期 望 : 
n=7/6 到 达 的 概率 : np= AT 
p= XM 


6 6066 6 6 6 
0 时 间 
到 达 
图 6.5 ”长度 7 的 时 间 段 内 的 泊 松 过 程 的 伯 努 利 近 似 的 示意 图 


在 时 间 r 到 达 慷 次 的 概率 P(k,7) 近似 地 等 于 以 每 次 实验 成 功 概率 为 p = X5， 
进行 二 7/6 次 独立 伯 努 利 试验 , 而 成 功 天 次 的 (二 项 ) 概率 . 现在 保持 r 不 变 , 令 
5 趋 于 0. 我 们 注意 到 , 这 时 时 间 段 数目 n 趋 于 无 穷 大 , 而 乘积 np 保持 不 变 , 等 于 
Xr. 在 这 种 情况 下 , 在 上 节 里 , 我 们 已 经 证 明了 二 项 分 布 趋 于 参数 为 Xr 的 泊 松 分 
布 , 于 是 我 们 可 以 得 到 如 下 重要 结论 


k 
P(k,7) =e— ~ 7 k= 0,1,... 
注意 , 由 er 六 的 泰勒 展开 , 可 以 得 到 


P(0,7) =e-* =1— Ar+o(7), 


P(1,7) =AMe = AT— NT? +O(T)= M+o1(7), 
跟 性 质 (c) 相符 . 
利用 泊 松 分 布 的 均值 和 方差 的 公式 , 可 以 得 至 
ELINz] = Ar， var(Nr) = 和 XT， 
其 中 N; 表示 在 长 度 为 7 的 时 间 段 中 到 达 的 次 数 . 这 些 公 式 一 点 都 不 令 人 惊讶 . 这 
是 因为 我 们 考虑 的 是 参数 为 n = 7/6 和 p = X65 的 二 项 分 布 的 极限 分 布 , 均值 为 
np 二 A 和 7, 方差 为 np(1 一 p) 守 np = X7. 


= 
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仅 


E 导 首次 到 达 的 时 间 的 概率 规律 . 假设 起 始 时 间 为 0, 则 全 > 上 当 
,四 内 没有 一 次 到 达 , 所 以 

1—P(T>H)=1- 
函数 求 导 , 得 到 概率 密度 函数 公式 


现在 
E 时 间 [0 

Fr(t) = 
然后 我 们 对 工 的 分 布 


当 韦 


P(T<#t)= P(0,t) =1—e*, t>0 


万 人 一 和 Xe At t> 0. 


这 就 说 明 首 次 到 达 时 间 服 从 参数 为 的 指数 分 布 . 我 们 将 得 
也 可 参见 图 6.6. 


总 结 为 下 表 . 


到 的 结论 


泊 松 过 程 相 关 的 随机 变量 及 其 性 质 
e。 服 从 参数 为 和 + 的 泊 松 分 布 . 这 是 泊 松 过 程 的 强度 为 和 在 时 间 长 度 为 了 
的 区 间 内 到 达 的 总 次 数 N; 的 分 布 . 它 的 分 布 列 、 期 望 和 方差 分 别 是 
k 
pN,(k) = P(k,7) = eT ,k=0, La, 
E[N7] = Xr， var(N7)= 和 7. 
。 服从 参数 为 入 的 指数 分 布 . 这 是 首次 到 达 的 时 间 了 的 分 布 . 它 的 分 布 
列 、 期 望 和 方差 是 
frlt) Xe >0，BT 一 了 3，var(7) = 总 
0666866666 p= 
0 时 间 
到 达 
泊 松 伯 努 利 
到 达 时 间 连续 离散 
到 达 次 数 的 分 布 泊 松 二 项 
邻 到 达 时 间 的 分 布 指数 几何 
到 达 率 和 /单位 时 间 |p/ 每 次 试验 
图 6.6 努 利 过 程 可 以 看 成 泊 松 过 程 的 离散 化 . 我 们 将 区 间 分 为 长 度 5 的 小 区 间 , 每 个 小 
区 间 对 应 一 个 伯 努 利 试验 , 其 参数 为 p = A5. 上 表 汇 总 了 两 个 过 程 的 对 应 关系 
例 6.8 ”假设 收 电子 邮件 是 一 个 强度 为 每 小 时 入 = 0.2 封 的 泊 松 过 程 . 每 小 时 检查 
次 电子 邮件 . 那么 接 到 0 封 和 1 封 新 邮件 的 概率 是 多 少 ? 


伯 努 利 过 程 和 泊 松 过 程 


分 


可 以 使 用 泊 松 


P(0,1) =e ?= 0.819, 


又 假设 一 天 都 没有 检查 电子 邮件 . 那么 
? 我 们 再 次 使 用 泊 松 分 布 来 计算 , 即 


少 


lr 


山 


封 


已 下 


P(0,24) = e224 ~ 0.008 3. 


P(1,1) = 0.2e-02 = 0.164. 


布 e-^7(AT)*/k! 来 计算 ,这 里 7=1,k=0 或 k=1: 


邯 件 都 没有 收 到 的 概率 是 多 


另 一 方面 , 我 们 也 可 以 这 么 想 . 在 一 天 24 个 小 时 里 都 没有 收 到 信息 , 那么 连续 24 


个 工 个 小 自 


tC. 


时 都 没有 收 到 信 ， 
生 的 概率 是 P(0,1) = e-02, 所 以 


P(0,24) = (P(0,1))*> = (e—°%2)24 = 0.008 3. 


这 个 结果 与 上 面 的 一 样 . 
例 6.9 (独立 泊 松 随机 变量 之 和 仍 是 泊 松 ) 


而 后 者 24 个 事件 都 是 相互 独立 的 , 而 且 每 个 事件 发 


顾客 去 超市 购物 可 


以 月 


昌 泊 松 过 程 来 刻 


9:30 到 9:35 来 超市 的 顾客 总 数 . 那么 N + AM 的 分 布 是 什么 ? 


注意 ，M 是 泊 松 的 , 参数 是 yj = 10 x 10 = 100, N 
10 x5= 50. 进一步 , M 和 NN 是 独立 的 . 在 4.4 节 里 , 运用 算 母 函数 的 方法 


= 


也 走 


得 M+N 也 是 
用 直观 的 方法 来 推导 这 个 公式 . 


数 为 50), 而 且 六 与 N 独立 . 所 以 M 
是 M+N 是 长 度 为 15 分 钟 的 时 间 区 
参数 是 10 x 15 = 150. 

这 个 例子 的 结论 是 普遍 的 . 对 于 一 个 ; 


的 区 间 内 的 到 达 总 数 , 则 随机 事件 X = 的 概率 为 P(k,7)， 
不 相交 的 区 间 的 个 数 是 不 受 
总 长 度 为 7 (在 本 例 中 , 我 们 处 理 的 是 时 间 段 [9:00, 9:10] 和 [9:30, 9:35], 总 时 间 是 15 


的 区 间 长 度 的 总 和 . 上 述 结论 中 ， 


分 钟 ). 
6.2.2 ”独立 性 和 无 记忆 性 
白松 过 程 有 许多 性 质 与 伯 努 利 过 程 


> 


况 , 所 以 


记 是 在 时 间 9:10 到 9:15 来 超市 的 顾客 总 数 , 则 NN 与 NN 一 样 是 ; 
十 入 的 分 布 与 MT+N 的 分 布 是 一 样 的 . 但 
间 内 来 超市 的 顾客 总 数 , 所 以 仍 是 省 


画 , 强度 为 每 分 钟 = 10 个 顾客 . 记 M 为 9:00 到 9:10 来 超市 的 顾客 总 数 . N 为 


松 的 , 参数 是 vy = 


En 经 证 


白松 分 布 , 参数 是 J 十 v = 150 (也 可 参见 第 4 章 习 题 11). 现在 我 们 


日 松 的 ( 参 


松 分 布 ， 


白松 过 程 来 说 , 设 X 为 若干 个 不 相 重 合 
中 克 
限制 的 


为 这 些 不 相交 
, 只 要 他 们 的 


是 类 似 的 , 比如 不 相交 时 间 区 间 内 的 到 达 是 
相互 独立 的 , 相 邻 时 间 分 布 的 无 记忆 性 . 泊 松 过 程 也 可 视 为 伯 努 利 过 程 的 极限 的 情 
日 松 过 程 继承 了 伯 努 利 过 程 的 许多 性 质 , 也 是 不 奇怪 的 . 
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泊 松 过 程 的 独立 性 质 
。 对 任意 给 定 的 时 间 t > 0, 时 间 t+ 之 后 的 过 程 也 是 泊 松 过 程 , 而 且 与 时 间 t 
之 前 (包括 时 间 为 的 历史 过 程 相互 独立 . 
。 对 任意 给 定 的 时 间 t, 令 了 是 时 间 t 之 后 首次 到 达 的 时 间 , 则 随机 变量 
T 了 一 t 服从 参数 为 和 的 指数 分 布 , 且 与 时 间 七 之 前 (包括 时 间 娘 的 历史 过 
程 相互 独立 . 


上 表 中 的 第 一 个 性 质 成 立 , 是 因为 从 时 间 t 开始 的 过 程 满足 泊 松 过 程 定义 的 性 
质 . 未 来 与 过 去 的 独立 性 直接 来 源 于 泊 松 过 程 定义 中 的 独立 性 假设 . 最 后 , 了 一 t 
有 相同 的 指数 分 布 , 这 是 因为 


P( 人 -上 > s)=P( 在 时 间 [上 上 + s 没有 到 达 ) = P(0,s) = e >. 


这 就 是 无 记忆 性 , 这 个 性 质 与 伯 努 利 过 程 的 无 记忆 性 是 类 似 的 . 下 面 两 个 例子 运用 
了 这 个 性 质 . 
例 6.10 ”你 和 朋友 一 起 去 网 球场 , 需要 一 直 等 到 正在 打球 的 人 打 完 为 止 . 假设 (有 
些 不 太 现实 ) 他 们 打球 的 时 间 服 从 指数 分 布 . 则 不 管 他 们 什么 时 候 开 始 打球 的 , 你 
们 等 待 的 时 间 (等 价 地 , 他 们 打球 的 剩余 时 间 ) 也 是 相同 的 指数 分 布 . 
例 6.11 进入 银行 , 你 会 发 现 有 三 个 营业 员 正 在 服务 客户 , 而 且 没 有 其 他 人 在 排 
队 等 待 . 假设 你 的 服务 时 间 和 正在 服务 的 客户 的 服务 时 间 都 是 具有 相同 参数 的 指数 
分 布 , 且 相 互 独立 . 那么 你 是 最 后 一 个 顾客 离开 银行 的 概率 是 多 少 ? 

答案 是 1/3. 从 你 开始 接受 一 名 营业 员 服 务 的 那 一 刻 算 起 , 另 两 名 正在 接受 服 
务 的 顾客 还 需要 的 服务 时 间 , 与 你 所 需要 的 服务 时 间 有 具有 相同 的 分 布 . 另外 两 位 顾 
客 , 虽然 比 你 早 接受 服务 , 但 由 于 泊 松 过 程 的 无 记忆 性 , 他 们 与 你 处 于 同一 起 跑 线 
上 , 不 算 以 前 的 服务 时 间 , 三 人 所 需 的 服务 时 间 的 分 布 是 相同 的 . 所 以 你 和 其 他 
人 具有 相同 的 概率 最 后 离开 银行 . 
6.2.3 ” 相 邻 到 达 时 间 

设 有 一 个 从 时 刻 0 开始 的 泊 松 过 程 . 与 这 个 过 程 相关 的 重要 的 随机 变量 是 第 
k 次 成 功 (或 到 达 ) 的 时 间 , 记 为 壕 . 与 奈 密切 相关 的 变量 是 第 次 相 邻 到 达 的 
时 间 , 记 为 肥 . 这 些 变量 满足 如 下 关系 


卫 


T=Y, T= Yi k=2,3,.…, 


Ti 的 含义 是 在 一 1 次 成 功 之 后 到 下 次 成 功 所 需 的 时 间 . 由 上 站 
得 到 


的 关系 , 可 以 推导 


p= 1 
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我 们 已 
成 功 之 后 , 未 来 是 一 个 


,经 得 到 首次 到 达 的 时 间 工 
新 的 泊 松 过 程 ,” 因 此 , 下 次 到 达 所 需 的 时 间 %% 与 


E 时 刻 歹 
TI 有 相同 


服从 参数 为 和 的 指数 分 布 . 第 一 次 在 


到 ， 


的 分 布 . 进一步 , 过 去 的 过 程 (于 


外 括 时 间 ) 与 未 的 斌 (从 时 刻 厂 以 后 


开始 ) 是 独立 的 . 既然 二 仅仅 
们 可 以 得 到 随机 变量 


未 来 决定 , 所 以 荆 与 也 独立 . 3 
序列 ,TD5,T3,……: 


类 似 继续 下 去 , 我 
互 独立 的 而 且 具 有 相同 的 指数 分 布 . 


是 相 


这 个 重要 的 结论 , 可 以 给 泊 松 六 


个 等 价 的 另 一 种 描 


过 程 


过 程 另 一 种 描述 

(1) 开始 于 一 串 相 互 独立 六 
它们 是 相 令 到达 时 间 . 

(2) 过 
程 就 是 泊 松 过 程 . 


泊 松 


F 且 公共 


程 的 到 达 的 时 间 为 卫 , 卫 十 DD, 五 十 卫 十 TH, 等 等 . 这 样 形成 的 随机 过 


参数 为 入 的 指数 随机 变量 序列 ,TD,… 


》 


ara 


牢 
第 成 功 的 时 间 六. 等 了 


6.2.4 k 次 到 达 的 时 间 


六 及 个 独 


立 同 分 布 且 服从 指数 分 布 的 随机 变量 之 和 , 即 


取 = 了 十 … 十 用 这 样 我 们 就 可 以 利 


度 函 数 . 


用 下 表 计 算 又 的 期 望 、 方 差 和 概率 密 


k 次 到 达 
e 第 次 到 达 


的 时 间 的 性 质 
大 的 时 间 等 于 


人 刀 全 
结 尼 


而 且 多 ,…- 
。 站 的 期 望 、 方 差 为 


ElY] 


var (Yi) = 


。 Yi 的 概率 密度 函数 是 


这 就 是 著名 


前 大 个 相 邻 到 达 


,T% 独立 同 分 布 , 服从 参数 为 ^ 的 指数 分 布 . 


三 BI] 十 


的 阶 数 为 的 埃 尔 朗 分 布 ”. 


时 间 之 和 


Fi = T+ + TD, 


天 


k 
var( 卫 ) 十 … 十 Var(7%) 三 雹 : 


口 6 


始 的 随机 过 程 . 现在 的 “重新 


始 " 


重 


章 回 定 的 时 刻 t 


是 指 从 任 ; 


外 新 
始 时 克 


说 的 随机 过 程 
强 , 这 是 因为 
明 这 个 重新 


Q@ 以 前 我 们 

结论 比较 
证 明 广 ) 法 证 
也 称 个 


© 马 分 布 . 一 一 译 者 注 


T， 是 随机 变量 
始 的 过 程 还 是 一 


观 的 . 可 以 用 类 似 例 6. 
值 取 条 件 的 方法 , 来 证 明 


. 但 是 这 个 结论 还 是 很 
个 泊 松 过 程 , 即 对 隐 可 能 的 取 


现在 
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下 面 我 们 来 证 明 丈 的 概率 密度 函数 公式 .对 非常 小 的 6, 乘积 5fy(y) 可 以 
近似 看 成 第 个 到 达 发 生 在 时 刻 y 与 y 十 6 之 间 的 概率 .” 当 6 非常 小 时 , 在 区 间 
ly,y 十 9] 到 达 的 次 数 超过 一 次 的 概率 是 可 以 忽略 的 . 在 y 与 y+6 之 间 第 次 到 达 
发 生 当 且 仅 当 下 面 两 个 事件 同时 发 生 . 

(a) 事件 4: 在 时 间 段 [y,y 十 引 到 达 了 一 次 ; 

(b) 事件 B: 在 时 间 y 之 前 恰好 发 生 了 一 1 次 . 

这 两 个 事件 发 生 的 概率 分 别 是 


Mk-1yk-1o—X 
P(B)= P(k— 1,y)= 3 


事件 4 与 B 是 相互 独立 的 , 所 以 
MK-1yk -le 


6fy,(V TP(y SY SYy+O TP(ANMB)= P(AP(B) ST MN a 


所 以 A ey 
My Te oY 
fy (y) = i yz 宕 0. 
例 6.12 ”你 拨打 国税 局 的 热线 电话 后 , 被 告知 , 除 正在 接受 服务 的 人 外 , 你 前 面 还 
有 55 位 等 待 服务 . 呼叫 者 离开 所 需 时 间 是 泊 松 过 程 , 强度 入 是 每 分 钟 2 人. 那么 
平均 而 言 , 直到 接受 服务 你 需要 等 待 多 长 时 间 ? 你 的 等 待 时 间 超过 30 分 钟 的 概率 


利用 无 记忆 性 , 正在 接受 服务 的 人 还 需 服 务 的 时 间 服 从 参数 为 入 = 2 的 指数 分 
布 . 所 以 你 前 面 55 人 的 服务 时 间 也 是 服从 参数 为 和 = 2 的 指数 分 布 . 而 且 所 有 这 
些 变量 都 是 独立 的 . 所 以 你 等 待 的 时 间 ( 记 为 Y) 是 56 阶 的 埃 尔 朗 分 布 , 所 以 


ElY] = 六 = 28. 


@ 下 面 介绍 另 一 种 推导 方法 , 不 使 用 近似 方法 论证 . 注意 到 对 任意 的 y > 0, 事件 {Yi < 邮 与 下 列 事 
件 相同 


{在 时 间 [0,y] 内 至 少 到 达 有 次 }. 


所 以 殉 的 分 布 是 

ooe 天 一 工 天 一 工 
Fy.(y) =P(Y Sy) = Py)=1- >》 Pn,y)=1- > 
钥 三 龙 和 三 身 


w= 


(Xy)"”e NY 
nl! 


让. 的 概率 密度 函数 可 通过 将 上 述 表达 式 将 y 求 导 得 到 ,直接 求 导 就 可 以 得 到 埃 尔 朗 概 率 密度 函数 


公式 


入 RE le- 和 WY 
(二 TI 


fy (9) = Fy 0) = 
2 


d 
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你 的 等 待 时 间 超过 30 分 钟 的 概率 是 
y55e— Ny 


Oo 入 56 
P(Y > 30) a 一 一 d 
30 


55! y. 


计算 上 述 概率 非常 麻烦 . 另 一 方面 , 既然 了 是 一 串 独立 同 分 布 随机 变量 序列 之 和 ， 


我 们 可 以 使 用 中 心 极 限定 理 和 正 态 分 布 表 来 近似 计算 . 
6.2.5 ” 泊 松 过 程 的 分 裂 与 合并 


类 似 于 伯 努 利 过 程 , 强度 为 和 的 泊 松 过 程 , 也 可 以 按 如 下 的 方法 进行 分 裂 ， 


当 有 一 个 到 达 时 , 我 们 选择 保留 下 来 (概率 为 p), 或 者 抛弃 (概率 为 1 一 p), 独立 于 
其 他 的 到 达 . 在 伯 努 利 过 程 , 我 们 知道 分 裂 后 的 过 程 仍 是 伯 努 利 的 . 在 现在 的 情况 


下 , 泊 松 过 程 分 裂 出 来 的 过 程 仍 是 泊 松 的 , 只 是 强度 为 Xp. 


类 似 地 , 如 果 有 两 个 相互 独立 的 泊 松 过 程 (参数 分 别 是 X; 和 Xa), 在 这 两 个 原 
始 的 过 程 中 , 随便 哪 一 个 到 达 , 就 认为 是 新 过 程 的 一 个 到 达 , 这 个 新 过 程 就 是 原来 过 


程 的 合并 过 程 . 可 以 证 明 这 个 合并 过 程 还 是 泊 松 的 , 强度 为 Xi + Xa. 合并 后 的 过 程 ， 


的 概率 来 自 于 第 二 个 泊 松 过 程 
我 们 举例 来 说 明 这 些 性 质 , 同时 提供 证 明 方法 


例 6.13 ( 泊 松 过 程 的 分 裂 ) “到达 数据 网 络 某 个 节点 的 信息 包 可 能 是 目的 地 信息 


任何 一 个 到 达 状 态 以 入 /(A1 + 和 2) 的 概率 来 自 于 第 一 个 泊 松 过 程 , 以 Xa/(Ai 十 X2) 


包 (目的 地 信息 包 的 定义 是 : 这 个 信息 包 以 该 节点 为 目的 地 , 不 


转发 到 其 他 节点 . 


到 达 的 信息 包 为 目的 地 信息 包 的 概率 为 p), 也 可 能 是 转发 的 信息 包 (这 种 事件 发 生 


的 概率 为 1 一 p), 这 样 的 信息 包 必 须 转发 到 其 他 节点 . 信息 包 到 达 节 点 的 过 程 是 泊 
松 过 程 , 强度 为 \, 而 且 到 达 信 息 包 的 类 别 与 其 他 到 达 信 息 包 的 类 
如 前 所 述 , 接收 目的 地 信息 包 的 过 程 也 是 泊 松 的 , 强度 是 Xp. 下面 对 此 进行 解释 . 

我 们 只 需 验 证 目的 地 信息 包 的 到 达 过 程 满 足 泊 松 过 程 的 定义 . 因为 和 p 是 常 
数 , 不 随时 间 变 化 而 变化 .任何 时 间 长 度 为 7 的 区 间 内 的 到 达 次 数 的 分 布 与 这 个 


别 是 相互 独立 的 . 


区 间 的 位 置 无 关 . 所 以 第 一 条 性 质 (时 间 同 质 性 ) 满足 . 进一步 , 无 论 到 达 的 信息 包 


是 否 为 目的 地 信息 包 , 在 不 相交 的 时 间 区 间 内 , 这 些 事件 都 是 彼此 独立 的 , 这 就 验 
证 了 泊 松 过 程 关于 独立 性 的 第 二 条 性 质 . 最 后 , 我 们 重点 研究 长 度 为 6 的 一 个 小 区 
间 , 目的 地 信息 包 到 达 的 概率 就 是 事件 : 有 一 个 信息 包 进入 节点 , 而 且 这 个 信息 包 
就 是 目的 地 信息 包 的 概率 , 这 个 概率 近似 于 A5.p. 另外 , 两 个 或 多 个 目的 地 信息 包 


到 达 贡 点 的 概率 相对 于 6 而 言 , 是 忽略 不 计 的 , 这 就 验证 了 泊 松 过 程 关 于 小 区 间 内 
到 达 次 数 的 分 布 列 的 第 三 条 性 质 . 所 以 我 们 得 出 目的 地 信息 包 到 达 过 程 也 是 泊 松 
过 程 . 特别 地 , 在 长 度 为 7 的 时 间 内 , 到 达 的 目的 地 信息 包 的 数目 服从 强度 为 pA7 
的 泊 松 分 布 . 由 对 称 性 , 转发 信息 包 的 到 达 过 程 也 是 泊 松 的 , 强度 是 (1 一 p) 和 . 有 点 
奇怪 的 是 , 从 原始 泊 松 过 程 分 裂 出 去 的 两 个 泊 松 过 程 居然 是 相互 独立 的 . 见 本 章 末 


习题 . 


6.2 


泊 松 过 程 
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例 6.14 ( 泊 松 过 程 的 合并 ) 
去 邮局 邮寄 包 事 的 到 达 过 程 


也 


局 寄 信 的 到 达 过 程 是 


泊 松 过 程 , 强度 是 Ai， 


人 们 


是 泊 松 


过 程 , 强度 是 Xa, 而且 


b 信 与 邮包 于 是 独立 的 . 


Ne 


这 样 , 人 们 进 
面 对 此 进行 解释 
首先 , 合并 后 的 过 程 显然 


g 局 办 事 ( 寄 信 或 


可 


满足 泊 松 过 程 的 时 间 同 质 性 


Pp 


分 布 列 


间 区 间 


义 中 的 独立 性 要 求 . 现在 考虑 长 度 为 5 的 小 区 间 , 在 下 面 的 论 ii 
表示 两 边 相差 一 个 与 6 相 比 可 忽略 的 项 . 我 们 有 


后 过 程 在 小 区 


过 程 在 小 


P( 合 3 


区 间 


P( 合 3 只 


由 上 式 看 出 , 合 》 
入 1 十 入 2. 


后 的 过 程 满足 泊 松 过 程 


牛 是 相互 独立 的 , 所 以 合并 


包 右 ) 的 到 达 过 程 是 泊 松 的 , 强度 是 入 


二 和 和 2. 下 


时 间 区 间 内 到 达 个 数 的 
只 与 区 间 的 长 度 有 关 , 与 区 间 的 起 始 时 刻 无 关 ) 进一步 , 原来 的 两 个 随机 过 
程 在 不 同 的 时 间 区 间 内 所 发 生 的 事 
内 所 发 生 的 事件 也 是 相互 独立 的 . 这 说 明 合并 后 的 过 程 也 符合 泊 松 过 程 定 


后 的 过 程 在 不 同 的 时 


过 程 中 近似 号 “sw 


闻 内 无 到 达 ) (1 一 入 0)(1 一 A26) 一 1 一 (Ai 十 Xz)6， 


有 1 次 到 达 ) SA6(1— A20)+A20(1—A6) ST (A A )o. 


假设 记录 了 一 个 人 进入 
某 时 刻 附 近 的 时 间 长 度 为 5 
题 , 即 计算 


8 局 , 问 这 个 人 来 寄 信 的 概率 是 多 少 ? 首 9 
区 间 内 , 此 时 把 问题 化 为 一 个 条 件 概 率 的 计算 问 


的 小 


P(1 个 寄 信 的 人 进 了 邮局 | 有 个 人 进 了 邮局 ). 
使 用 条 件 概率 的 定义 , 忽略 超过 1 个 人 进 邮局 那些 小 概率 值 , 得 到 
P( 个 寄 信 的 人 进 了 邮局 ) 。 和 5 _ 入 
P( 有 个 人 进 了 邮局 ) (Xi 十 Xz)6 和 i 十 和 2 
由 泊 松 过 程 的 性 质 可 知 , 这 个 条 件 概率 与 这 个 人 进入 


进入 邮 
个 进入 邮局 的 人 是 来 寄 信 的 ” 


因为 不 同 的 人 , 到 达 的 时 间 也 


立 的 , 所 以 随机 事件 Li, Ls,…… 


, 类 似 可 得 


定义 的 第 三 个 要 求 , 并 且 其 强度 参数 为 


E 将 焦点 放 在 


邮局 的 时 刻 无 关 , 无 论 他 何 时 
局 , 这 个 人 是 来 “ 寄 信 ”的 概率 也 是 Xi/(Ai + 和 2). 现在 记 Li 为 事件 “第 天 


不 一 样 . 所 以 , 对 泊 松 过 程 , 不 同时 间 的 事件 是 相互 独 


是 独立 的 . 


例 6.15 (竞争 指数 ) 


和 a。 和 和 的 指数 分 布 . 问 两 个 灯泡 首次 烧 坏 的 


@ 如 果 把 两 个 灯泡 串联 起 来 , 形成 一 个 串联 系统 . 当 其 
的 灯泡 的 寿命 . 


命 就 是 本 例 中 的 首次 烧毁 


串联 系统 在 可 靠 性 统计 具有 本 


EE 要 的 地 位 . 


两 个 灯泡 ”具有 独立 的 寿命 到 和 ,它们 分 别 服从 参数 为 
时 间 Z = min{T,,T,} 的 分 布 是 什么 ? 


中 一 个 灯泡 寿 终 的 时 候 , 系统 就 寿 终 . 系统 的 寿 


译 者 注 
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对 任意 的 z > 0, 有 
Fz(2) =P(min{Ts, Ty} < 2) 
=1—P(min{T,,T,} > 2) 
=1—P(T, > z,D > 2z) 
=1—P(T, > z)P(T, > 2z) 
1 or-xaze-xez 


=1— e QetX)z. 


这 就 是 参数 为 和 A 十 入 的 指数 分 布 的 分 布 函数 . 所 以 两 个 独立 的 参数 分 别 为 和 A 
和 X 的 指数 分 布 随 机 变量 之 较 小 的 随机 变量 服从 参数 为 和 + Xe 的 指数 分 布 . 

可 以 更 直观 地 解释 这 个 事实 . 假设 T 和 分别 是 强度 为 As。 入 的 泊 松 过 程 
首次 到 达 的 时 间 . 如 果 我 们 将 两 个 过 程 合 并 , 那么 首次 到 达 的 时 间 是 min{T,,T}. 
我 们 已 经 知道 合并 后 的 过 程 是 强度 为 XeHxs 的 泊 松 过 程 , 所 以 首次 到 达 时 间 min{7。， 
马 } 是 指数 分 布 , 参数 为 和 a + 入. 

前 面 的 结论 可 以 推广 到 更 多 过 程 的 情形 . 即 n 个 独立 的 泊 松 过 程 , 强度 分 别 为 
和 i,… ,Xn, 则 合并 后 的 过 程 仍然 是 泊 松 的 , 强度 是 Xi 十 … 十 和 An. 
例 6.16 (竞争 指数 的 进一步 讨论 ) 点 亮 三 莫 灯 泡 , 其 寿命 分 布 都 是 参数 为 和 的 指 
数 分 布 , 而 且 相 互 独立 . 那么 直到 最 后 一 瘟 灯 泡 烧 坏 的 时 间 的 期 望 值 是 多 少 ? 

我 们 已 经 讲 过 , 每 幕 灯 泡 烧 坏 的 时 间 可 视 为 独立 泊 松 过 程 的 首次 到 达 时 间 . 

台 , 我 们 有 三 蔓 灯 泡 , 所 以 合并 后 的 过 程 是 泊 松 过 程 , 强度 是 3 和 A， 所 以 第 一 次 烧 坏 
的 时 间 卫 服从 指数 分 布 , 参数 是 3 和 , 均值 是 1/3 和 .一旦 有 一 瘟 灯 泡 烧 坏 了 , 由 指 
数 分 布 的 无 记忆 性 , 剩 下 的 两 个 灯泡 的 寿命 时 间 仍 是 指数 分 布 , 而 且 独立 , 重新 
始 . 所 以 我 们 有 两 个 泊 松 过 程 . 剩 下 的 两 个 过 程 合 并 后 仍 是 泊 松 过 程 , 强度 是 2 入 . 
故 首 次 烧 坏 的 时 间 ZT 服从 指数 分 布 , 参数 是 2, 均值 是 1/2A. 最 后 , 在 第 二 瘟 灯 
泡 烧 坏 之 后 , 只 剩 下 一 蔓 灯 泡 . 再 次 运用 无 记忆 性 , 最 后 一 蔓 灯 泡 烧 坏 的 时 间 是 
指数 分 布 , 参数 是 和 , 均值 是 1/ 和 A. 故 整个 时 间 的 期 望 值 是 
ET +B+T]= 让 二 站 十 六 

注意 , 因为 无 记忆 性 , 随机 变量 T、 元 、Ts 是 独立 的 . 这 样 , 人 们 也 可 以 计算 

总 时 间 的 方差 
1 1 1 


var( 厂 十 72 十 73) 一 var(T1) 十 var(T>) 十 var(73) 一 9Xz 十 4 2 十 7 


6.2.6 ” 伯 努 利 过 程 和 泊 松 过 程 , 随机 变量 之 和 


利用 伯 努 利 过 程 和 泊 松 的 分 裂 和 合并 的 性 质 , 可 以 既 巧 妙 又 直观 地 得 到 独立 随 
机 变量 之 和 的 许多 有 趣 的 性 质 ， 当 然 , 你 也 可 以 直接 按 定 义 推导 出 有 关 分 布 , 或 者 
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利用 矩 母 函 数 进行 分 布 推导 . 但 是 这 些 方法 都 不 是 很 直观 . 我 们 将 这 些 性 质 归 纳 如 


公 . 


随机 数 个 独立 随机 变量 和 的 性 质 
设 NN, XI1,… ,Xi 是 独立 随机 变量 , 其 中 NN 取 非 负 整数 . 当 N > 0 时 , 定义 
== 玉 十:… 十 XN, 当 N=0 时 ,定义 Y=0. 
。 如 果 X; 的 分 布 是 参数 为 p 的 伯 努 利 分 布 ，N 的 分 布 是 参数 为 m 和 g 的 
二 项 分 布 , 则 YY 的 分 布 是 参数 为 m 和 pg 的 二 项 分 布 . 
。 如 果 XX; 的 分 布 是 参数 为 p 的 伯 努 利 分 布 , N 的 分 布 是 参数 为 和 的 泊 松 
分 布 , 则 Y 的 分 布 是 参数 为 Xp 的 泊 松 分 布 . 
。 如 果 XX; 的 分 布 是 参数 为 p 的 几何 分 布 , N 的 分 布 是 参数 为 g 的 几何 分 
布 , 则 Y 的 分 布 是 参数 为 pg 的 几何 分 布 . 
。 如 果 XX; 的 分 布 是 参数 为 和 的 指数 分 布 , N 的 分 布 是 参数 为 gq 的 几何 分 
布 , 则 Y 的 分 布 是 参数 为 Ag 的 指数 分 布 . 


二 


前 两 个 性 质 在 习题 22 中 证 明 , 第 三 个 性 质 在 习题 6 中 证 明 , 最 后 一 个 性 质 在 
习题 23 中 证 明 . 最 后 三 个 性 质 也 在 第 4 章 中 得 到 证 明 , 在 那里 是 使 用 第 母 函数 的 
方法 来 证 的 (参见 4.4 节 和 第 4 章 的 最 后 一 个 习题 ). 此 外 , 在 习题 24 中 给 出 了 男 
一 个 有 趣 的 性 质 , 即 记 Ni 是 在 长 度 上 的 时 间 内 强度 和 的 泊 松 过 程 到 达 的 总 数目 ， 
7 为 时 间 长 度 , 服从 参数 为 v 的 指数 分 布 , 且 与 泊 松 过 程 独立 , 则 Nz +1 的 分 布 是 
几何 分 布 , 参数 为 z/( 入 十 中 ， 

下 面 我 们 讨论 一 个 更 深 的 相关 性 质 . 一 个 非常 大 数目 多 个 的 独立 到 达 过 程 (不 
必 是 泊 松 ) 的 合并 , 是 否 可 以 用 强度 为 各 自强 度 之 和 的 泊 松 过 程 来 近似 呢 ? 每 个 过 
程 的 强度 相对 总 过 程 而 言 是 非常 小 的 (所 以 它们 之 间 没 有 一 个 过 程 对 总 过 程 的 概 
率 特征 施加 影响 ), 而 且 它 们 必须 满足 一 些 数学 上 的 假设 . 更 深 的 讨论 超出 本 书 的 
范围 . 但 是 注意 , 在 实际 中 , 的 确 需要 对 大 量 类 似 泊 松 的 过 程 的 大 样本 性 质 进行 分 
析 . 比如 , 城市 里 的 电话 通信 流量 就 是 由 许多 分 支 的 小 的 过 程 合并 而 成 , 每 个 分 支 
的 小 过 程 刻画 了 当地 居民 打 电 话 的 性 质 . 这 些小 的 过 程 不 一 定 是 泊 松 的 . 比如 , 有 
些 人 喜欢 一 批 人 一 起 打 电 话 (小 型 电话 会 议 ), 同时 一 个 人 在 打 电 话 的 时 候 是 无 法 
接听 第 二 个 电话 的 . 但 是 , 将 许多 小 的 过 程 合并 以 后 可 以 使 用 泊 松 过 程 来 刻画 . 相 
同 的 原因 , 城市 里 汽车 事故 的 过 程 、 商 店 里 顾客 的 到 达 过 程 、 放 射 性 物质 的 粒子 发 
射 过 程 等 , 都 可 以 使 用 泊 松 过 程 . 
6.2.7 ”随机 插入 的 悖 论 


泊 松 过 程 的 到 达 时 间 序 列 将 时 间 轴 分 割 成 一 串 相 邻 的 时 间 间 隔 序列 , 每 个 时 间 
段 开始 于 一 个 到 达 , 结束 于 下 一 个 到 达 . 已 经 证 得 每 个 相 邻 时 间 段 的 长 度 ( 称 为 相 
邻 到 达 时 间 ) 是 相互 独立 的 、 参 数 为 和 的 指数 分 布 的 随机 变量 , 其 中 和 是 泊 松 过 程 
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的 强度 . 更 精确 地 说 , 对 每 个 k, 第 个 相 邻 到 达 时 间 服 从 指数 分 布 . 在 这 个 小 节 旦 
我 们 从 另 一 个 角度 来 看 这 些 相 邻 到 达 时 间 . 
固定 一 个 时 间 点 妇 , 现在 来 看 包含 时 间 点 妇 、 长 度 为 工 的 相 邻 时 间 段 . 现在 看 
一 看 这 个 问题 的 实际 背景 , 比如 有 一 个 人 , 在 一 个 任意 的 时 间 点 世 , 到 达 公 共 汽 车 
站 , 然后 记录 前 次 汽车 到 达 与 下 一 次 到 达 的 时 间 间 隔 . 通常 称 这 个 人 的 到 达 为 “ 随 
机 插入 ”, 然而 , 这 个 词汇 容易 引起 误导 , #* 只 是 一 个 特定 的 时 间 , 不 是 随机 变量 . 
假设 女 比 泊 松 过 程 的 起 始 时 间 大 得 多 , 所 以 可 以 明确 地 知道 , 在 时 间 # 之 前 
有 到 达 . 为 避免 时 刻 #* 所 引发 的 这 种 担忧 , 我 们 假设 泊 松 过 程 的 起 始点 为 -co, 所 
以 可 以 确信 在 时 间 # 之 前 有 到 达 , 从 而 工 有 定义 . 人 们 会 错误 地 认为 工 只 是 一 个 
“典型 ”的 相 邻 时 间 段 的 长 度 , 因此 也 是 指数 分 布 的 , 但 是 这 是 错误 的 . 事实 上 , 我 
们 将 证 明 工 服从 阶 数 为 2 的 埃 尔 朗 分 布 . 

这 就 是 有 名 的 随机 插入 的 影响 或 者 随机 插入 悖 论 , 可 以 使 用 图 6.7 来 解释 . 假 
设 [U,V] 是 含 时 刻 妇 的 相 邻 时 间 段 , 则 L = V 一 U. 特别 地 , UV 是 妇 之 前 的 最 后 
一 次 到 达 时 间 , V 是 妇 之 后 的 首次 到 达 时 间 . 将 工分 成 两 部 分 


卫 三 (大 一 四 十 (一刀 )， 


[号 


其 中 #r -UV 是 已 经 过 去 的 时 间 , V 一 女 是 剩 下 的 时 间 . 注意 , #* -UV 取决 于 过 程 的 
历史 ( 妇 之 前 ), 而 VV 一 女 取决 于 过 程 的 未 来 ( 女 之 后 ). 由 泊 松 过 程 的 独立 性 , 随 
机 变量 V 一 女 与 如 -UVU 是 独立 的 . 由 泊 松 过 程 的 无 记忆 性 , 泊 松 过 程 从 时 刻 妇 重 
新 开始 , 所 以 V 一 女 也 是 参数 为 和 的 指数 分 布 . 当然 随机 变量 # -U 也 是 指数 的 ， 
参数 为 .得 到 这 个 结论 的 最 简单 方法 就 是 : 如 果 泊 松 过 程 倒 着 运行 , 仍 是 泊 松 过 
程 . 这 是 因为 泊 松 过 程 的 定义 中 时 间 不 管 是 顺 着 的 还 是 倒 着 的 , 没有 什么 区 别 . 下 
面 的 公式 是 关于 t* 一 U 的 分 布 之 结论 的 严格 证 明 


c+ 


oh 
Wl 


P(t#* 一 U > Zz)==P( 在 时 间 段 [#* 一 z,#*] 内 没有 到 达 ) = P(0,z)=e **， zz>0. 


we 


于 是 我 们 就 证 明了 工 是 两 个 参数 为 和 的 独立 指数 分 布 随 机 变量 之 和 , 即 是 阶 数 为 
2 的 埃 尔 姑 分 布 , 均值 是 2/ 入 . 


U 
时 间 
流逝 的 时 间 选 定 的 时 刻 剩余 的 时 间 
t—U Vot 


图 6.7 ”随机 插入 影响 示意 图 . 对 于 固定 时 间 点 世 , 对 应 的 相 邻 时 间 段 [U,V] 的 组 成 : 流逝 
时 间 蕊 - 7 与 剩余 时 间 V 一 女 . 这 两 个 时 间 变 量 是 独立 的 , 服从 参数 为 和 的 指数 
分 布 , 所 以 它们 之 和 服从 阶 数 为 2 的 埃 尔 六 分 布 
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Ps 


入 现象 通 


随机 可 


是 


概率 模型 来 避免 . 关键 的 问 


而 不 是 较 小 的 时 间 间 隔 


2/ 和 , 比 指数 分 布 的 均值 1/ 和 要 大 . 类 似 的 情况 在 下 面 的 例子 9 
例 6.17 ( 非 泊 松 达到 过 程 中 的 随机 影响 ) 
到 达 间 隔 时 间 刀 ， 
隔 时 间 是 30 分 钟 . 一 个 人 在 某 随机 时 刻 到 达 公 交 车 站 . 我 们 说 “随机 ”是 # 
一 个 人 落 在 长 度 为 5 的 间隔 
区 间 的 概率 为 苍 , 则 到 达 间 陋 时 间 的 期 望 什 


整 点 后 5 分 钟 到 达 车 站 


定 小 时 内 均匀 分 布 . 这 档 
55 的 间隔 


让 人 产生 误解 和 造成 失误 , 但 是 这 通 
一 个 观测 者 到 


题 是 ， 


区 间 里 ， 


因此 ,， 


,这 机 


1 


5 . 
12 


十 


地 选择 


达 的 任意 时 刻 更 可 能 落 在 
况 下 , 观测 者 观测 的 平均 长 
也 会 发 生 . 

车 按照 一 定 的 规定 分 别 于 


交替 . 平均 


有 


E 这 种 避 


公交 


E 5 分 钟 和 55 分 钟 


个 较 大 
度 将 为 


整 点 和 
到 达 间 


义 
已 
日 


在 茶 特 


区 间 的 概率 为 吉 , 落 召 
是 


11 
55 .一 三 50.83 
12 


这 比 平 均 到 达 间 隔 时 间 30 分 钟 要 大 得 多 . 


如 上 例 所 示 , 随机 插入 是 一 个 引起 更 大 的 相 邻 到 达 时 间 间 隔 的 微妙 
非 泊 松 过 程 的 上 文中 被 很 好 地 说 明 . 更 
给 予 了 不 同 的 概率 机 人 


结论 时 , 往往 是 他 们 


般 地 说 , 当 不 同 的 计算 方法 给 出 了 


中 KK 可 视 为 


随机 变量 . 
公交 车 使 用 情况 的 调查 , 一 


人 人 


『 均 乘 车 人 数 . 另 一 种 方法 是 随 


方法 得 到 的 估计 有 


很 大 的 不 同 , 而 第 三 种 方法 的 估计 明显 偏 高 , 原 


现象 , 已 用 


出. 比方 说 , 考虑 给 定 一 个 非 随 机 的 
察 相应 的 第 个 相 邻 到 达 时间 的 试验 与 固定 时 间 t, 观察 第 到 个 相 邻 到 达 时 间 i 
隔 履 盖 t 的 试验 是 完全 不 同 的 ， 

考虑 最 后 一 个 有 类 似 味道 的 例子 . 关于 城市 
是 随机 选择 一 些 公交 车 , 并 计算 所 选 车 辆 的 3 
一 些 公 交 乘 客 , 观察 他 们 所 乘 的 公交 车 并 计算 出 这 些 车 上 的 平均 乘 车 人 数 . 这 


长 度 为 


Ek 


相悖 日 
观 
司 


MEY 


2 


种 方法 
机 选择 
两 种 


Ws 


内 是 当 使 


种 方法 时 , 我 们 


容易 选择 到 具有 大 量 乘客 的 公交 


6.3 


在 本 章 中 , 我 们 介 


和 分 析 了 两 利 


在 每 一 个 离散 时 间 中 都 
一 个 长 度 为 5 > 0 的 小 


邻 的 时 间 间 隔 中 到 达 的 次 数 是 独立 的 . 在 离散 时 间 


有 一 个 常 值 的 到 达 概率 p. 洋 
区 间 内 , 都 有 一 个 到 达 的 近似 概率 X65. 在 两 种 情况 中 , 不 相 
司 隔 是 一 个 很 小 的 值 5 时 , 漳 


FE, 而 不 是 几乎 空 着 的 车 


小 结 和 讨论 


无 记忆 到 达 过 程 . 伯 努 利 过 各 


有 


中 一 


涉及 离散 时 间 ， 


口 


松 过 程 涉及 连续 时 间 ， 


对 于 每 


松 


过 程 可 以 看 作 是 伯 努 利 过 程 的 极限 情况 .这 个 事实 可 以 用 来 提炼 两 个 过 程 主要 性 


质 的 相似 处 , 将 一 个 过 程 的 本 质 转移 到 另 一 个 过 程 中 
使 用 伯 努 利 过程 和 泊 松 过 程 的 无 记忆 性 , 我 们 
(a) 对 于 给 定 长 度 的 时 间 间 隔 , 到 达 次 数 的 分 布 列 是 二 项 分 布 或 


得 到 如 下 结论 : 
日 松 分 


(b) 相 邻 到 达 时 间 分 别 服从 几何 分 布 和 指数 分 布 ; 


(c) 第 次 到 达 时 间 的 分 布 分 别 为 阶 帕 


斯 卡 分布 和 大 阶 埃 尔 朗 分 布 . 


布 ; 
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此 外 , 我 们 发 现 , 可 以 从 两 个 独立 的 伯 努 利 (或 泊 松 ) 过 程 开始 , 将 它们 合并 后 


形成 一 个 新 的 伯 努 利 (或 泊 松 ) 过 程 . 相反 地 , 如 果 以 投掷 便 币 的 成 功 概率 p 接受 


每 一 次 到 达 (“ 分 裂 ” 


”), 则 接受 的 到 达 过 程 仍 是 伯 努 利 过 程 或 泊 松 过 程 , 只 是 平均 


到 达 率 或 强度 是 原始 到 达 率 的 p 倍 . 
我 们 最 后 考虑 了 


随机 插入 现象 , 它 是 指 一 个 外 在 观测 者 在 某 特定 时 刻 到 达 并 测 
量 了 他 到 达 的 那个 到 达 时 间 间 隔 . 测量 的 区 间 的 概率 性 质 与 传统 的 “典型 ”的 到 达 


一 


间隔 区 间 的 概率 性 质 
达 间 隔 时 | 


不 同 , 原因 就 在 于 观测 者 的 到 达 时 间 更 可 能 会 落 入 大 一 些 的 到 
司 区 间 中 . 这 种 现象 说 明 , 当 谈 及 “上 典型” 区间 时 , 我 们 必须 仔细 描述 区 间 


选择 的 机 制 , 不 同 的 机 制 会 导致 不 同 的 统计 性 质 . 


6.1 


1 


. 计算 机 系统 执行 


习 题 


书 ” 伯 努 利 过 程 
某 单位 有 两 辆 货 过 


F, 一 辆 是 红色 的 , 另 一 辆 为 绿色 的 . 现在 一 共有 n 个 包 庄 需 装 到 车 上 . 


装 车 的 时 候 , 每 一 个 包 囊 都 是 独立 地 放 到 红色 货车 (以 概率 p) 或 绿色 货车 (以 概率 1 由 
上 的 , 设 RR 为 红 车 上 包 更 的 总 个 数 , G 表示 绿 车 上 包 囊 的 总 个 数 


(a) 确定 随机 变 


量 RR 的 分 布 列 、 期 望 和 方差 值 . 
(b) 求 第 一 次 装 车 的 时 候 将 一 个 包 囊 装 上 某 辆 车 , 一 直到 装 完 第 ”个 包 囊 以 后 , 这 辆 车 
上 还 只 有 一 个 包 右 的 概率 . 


(e) 计算 在 装 完 


货 以 后 至 少 有 一 个 货车 只 有 一 个 包 右 的 概率 . 


期 望 和 方差 . 


(d) 计算 有 一 G 的 
(e) 假设 n > 2, 在 月 


两 个 包 右 都 装 在 红 货 车 的 条 件 下 求 出 随机 变量 RE 的 条 件 分 布 列 、 


| 


期 望 和 方差 值 . 


I 


. 大 卫 在 每 次 小 测验 中 


不 及 格 的 概率 为 1/4, 并 且 各 次 小 测验 的 结果 是 相互 独立 . 


(a) 计算 大 卫 在 6 次 小 测验 中 恰好 不 及 格 2 次 的 概率 


(b) 计算 大 卫 在 不 及 格 3 次 之 前 通过 的 平均 测验 数 . 


(c) 计算 大 卫 恰 好 在 第 8 次 和 第 9 次 测验 时 发 生 第 2 次 和 第 3 次 不 及 格 的 概率 . 


(d) 计算 大 卫 在 连 


连 纪 


2 次 通过 测验 之 前 连续 2 次 不 及 格 的 概率 . 


个 


lj 户 提交 的 任务 , 时 间 被 划分 为 几 部 分 , 每 一 部 分 以 pr = 1/6 的 概 


率 空 闲 , 以 pp = 5/6 的 概率 忙碌 . 在 忙碌 时 间 , 来 自用 户 1 或 用 户 2 的 任务 被 执行 的 概 


率 分 别 为 pijs = 2/5 或 pz1s = 3/5, 我 们 假设 不 同时 间 段 的 事件 彼此 独立 
(a) 计算 在 第 4 个 时 间 段 第 一 次 执行 用 户 1 的 任务 概率 . 


(b) 在 前 10 个 时 间 段 中 有 5 个 空闲 的 条 件 下 , 计算 第 6 个 空闲 时 间 段 为 第 12 个 时 间 


段 的 概率 . 


(c) 计算 系统 在 执行 来 自用 户 1 第 5 个 任务 时 的 总 时 间 段 数 的 期 望 信 


3 


(d) 计算 执行 来 


户 1 的 第 5 个 任务 时 , 计算 机 经 历 的 繁忙 时 间 段 的 期 望 数 . 


(e) 计算 执行 来 
均值 和 方差 . 


用 户 1 的 第 5 个 任务 时 , 计算 机 所 执行 的 用 户 2 的 任务 数 的 分 布 列 、 


4.” 考 虑 一 个 伯 努 利 过 程 , 每 次 试验 成 功 概率 为 p. 


(a) 将 第 7 次 成 功 之 前 失败 的 次 数 (通常 称 作 负 二 项 分 布 随 机 变 


- 旦 . 
重 


wh 


布 的 随机 变量 联系 起 来 , 并 求 出 它 的 分 布 列 . 
1 第 7 次 成 功 之 前 失败 次 数 的 期 望 和 方差 . 


(b) 


= 
租 有 


) 与 一 个 服从 帕斯卡 


人 台 


2 


2 
i 次 失败 发 生 在 第 ” 次 成 功 之 前 的 概率 的 表 


HI 
了 
[1 


(c) 
解 


ja 一 中) 


奖 


(b) 使 用 上 一 部 分 的 记号 , 我 们 有 


EIX] = E[Y] 


设 Y 表示 第 7 次 成 功 之 前 试验 的 次 数 , 它 是 ” 阶 由 
表示 第 7 次 成 功 之 前 失败 的 次 数 , 所 以 有 X 一 工 一 ， 


达 式 . 


斯 卡 分 布 随机 变 
天 


旦 ， 再 设 
此 , px (k) = py (k++7), 


k=0,1,... 


-Pr 


7 一 T 


var(X) = var(Y) = 


和 7 次 成 功 之 前 失败 的 次 数 , 在 
ja 


AAS 
和 
2 人 


再 次 设 X 表示 和 灸 
且 仅 当 环 > 


(c) 


为 此 , 其 概率 等 
DPpx(k) = >, ( 
kt 


= 
一 个 蔡 代 的 公式 可 如 下 夺 


天 十 了 一 工 
7 一 工 


E 导 而 得 . 考虑 前 7 十 i 一 1 次 试验 , 在 这 些 试验 


次 成 功 之 前 发 生 第 i 次 失败 当 


bt 


FP 失败 的 次 


数 至 少 为 i 当 且 仅 当 成 功 的 次 数 少 于 ~. 但 是 , 这 也 等 价 于 在 第 ” 次 成 功 之 前 发 生 
第 i 次 失败 , 这 样 , 想 要 的 概率 也 就 是 在 前 7 十 i 一 1 次 试验 中 成 功 的 次 数 少 于 7 的 
来, 它 是 
D(a 二 2 证 
三 各 
5.” 伯 努 利 过 程 中 的 随机 插入 .你 的 表 弟 很 久 以 前 就 开始 在 玩 一 个 视频 游戏 , 假设 他 说 每 一 
局 的 概率 是 p, 并 且 独 立 于 其 他 游戏 的 结果 . 午夜 时 , 你 进入 他 的 房间 并 且 发 现 他 输 掉 了 
当前 的 游戏 . 试 计算 他 最 近 一 次 赢 和 他 未 来 将 要 第 一 次 说 之 间 输 的 次 数 的 分 布 列 . 
解 ” 设 表示 当 你 进入 房间 时 所 玩 游戏 的 序号 , M 表示 他 赢 的 最 近 一 盘 游戏 的 序号 ,N 


表示 即将 赢 的 游戏 序号 , 则 随机 变量 X = N 一 t 服从 参数 为 p 几何 分 布 . 
服从 参数 为 p 的 几何 分 布 , 在 人 
间 输 掉 游戏 的 次 数 即 为 M 和 NN 之 间 游 戏 个 数 , 上 述 次 数 工 为 


称 性 和 独立 性 , 随机 变量 Y = 4 一 M 也 同和 
和 未 来 将 要 和 


入 一 次 说 之 


L=N—-M 


f, 工 十 1 就 有 2 阶 帕斯卡 分 布 , 并 


1 二 XX 十 YY 


这 上 


k—1 


于 游戏 的 对 


也 最 近 一 次 赢 


J 


rr- ( ， 


jza 四 一 (一 1)22( 
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pL) =P(L+1=i+1)=ip (lp) !, i=1,2,... 

项 数 为 几何 随机 变量 的 独立 几何 随机 变量 之 和 . 设 耻 = Xi 十 Xz 十 … 十 XN, 其 中 随机 
变量 X; 服从 参数 为 p 的 几何 分 布 , 并 且 N 服从 参数 为 gq 的 几何 分 布 . 假设 随机 变量 
N, Xi,X2 相互 独立 . 在 不 利用 和 矩 母 函数 的 前 提 下 证 明 , Y 服从 参数 为 pg 的 几何 分 
布 . 提示 : 利用 分 裂 的 伯 努 利 过 程 解 释 题 中 所 涉及 的 随机 变量 . 
解 ”我 们 在 第 4 章 中 使 用 矩 母 函 数 得 到 了 这 个 结论 , 但 是 我 们 在 这 里 要 进行 更 加 直观 的 
企 导 . 我 们 分 别 将 随机 变量 X; 和 NN 作 如 下 解释 , 我 们 将 时 刻 Xi, Xi 二 X2,…… 视 作 参数 
为 p 的 伯 努 利 过 程 中 的 到 达 时 刻 , 每 一 个 到 达 以 概率 1 - 9 拒绝 , 以 概率 g 接受 . 我 们 将 
N 解释 为 第 一 次 接受 之 前 到 达 的 个 数 , 被 接受 的 到 达 过 程 是 通过 分 裂 伯 努 利 过 程 而 获得 
的 , 因此 它 本 身 就 是 参数 为 pa 的 伯 努 利 过 程 . 注意 到 随机 变量 Y = Xi 十 Xo 十 .十 XN 
就 是 出 现 到 达 被 第 一 次 接受 的 时 间 , 因此 是 参数 为 pa 的 几何 分 布 . 

来 自 伯 努 利 过 程 的 均匀 分 布 随机 变量 的 比特 数 . 设 Xi, X2,... 是 取 值 于 {0,1} 的 二 值 随 
机 变量 序列 , 设 Y 表示 取 值 于 [0, 1] 的 连续 随机 变量 , 我 们 假设 Y 为 具有 二 进 制 表示 为 
0.X1X2Xs:.. 的 实数 , 因此 将 X 和 YY 联系 起 来 . 更 加 具体 的 表达 式 是 


y= > 2 


(a) 假设 X; 来 自 参 数 为 p = 1/2 的 伯 努 利 过 程 , 证 明 Y 服从 均匀 分 布 . 提示 : 考虑 事 
件 (i 一 1)/2* <Y <i/2* 的 概率 , 其 中 i,k 都 是 正 整 数 ， 

(b) 假设 Y 是 均匀 分 布 的 , 证 明 X; 来 自 参 数 为 p = 1/2 的 伯 努 利 过 程 . 

解 (a) 我 们 有 


P(Y € [0,1/2]) = P(X =0) ; P(Y € [1/2,1)). 


进而 ， 

1 
类 似 的 , 我 们 考虑 形 如 [(i 一 1)/2*,i/2*] 的 区 间 , 其 中 i,k 都 是 正 整 数 并 且 i < 2*， 
要 想 Y 落 在 这 个 区 间 内 , 我 们 需要 Xi, XX2,… ,Xn 取 一 些 特殊 的 值 (也 就 是 i 一 1 
的 二 进 制 展开 的 小 数 点 后 的 天 个 数 ), 这 样 


P(Y € [0,1/4]) = P(X1 =0, Xa = 0) 


1 


P((i—1)/2 <Y <i/2")= 


同时 注意 到 : 对 于 [0,1] 中 任意 的 数 y, 我 们 有 P(Y = y) = 0, 这 是 因为 事件 
{Y = y} 只 有 当 无 穷 多 个 X; 取 特 殊 值 时 才 可 能 发 生 , 是 一 个 零 概率 事件 . 因此 , 了 
的 分 布 函 数 是 连续 型 的 并 且 、 满足 


2 

Dk 

既然 每 一 个 [0,1 中 的 y 都 可 以 用 形 如 i/2* 的 数 近似 逼近 , 对 于 任意 的 y € [0, 1] 
我 们 有 P(Y < y) = y, 这 就 证 明了 YY 服从 均匀 分 布 . 


P(Y < 1/2*) = 


6.2 节 


早上 8 点 到 9 点 这 段 繁忙 时 间 里 , 交通 寻 
分 布 , 在 早上 9 点 到 11 点 之 间 
泊 松 分 布 . 试 求 : 早上 8 点 到 11 点 之 i 


8. 


10. 


11. 


12. 


13. 


(b) 正如 (a) 部 分 , 我 们 发 现 Xi, Xz,… ,Xi 的 每 一 种 可 
一 个 形 如 [Gi 一 1)/2*,4/2* 
分 布 进而 具有 相同 的 概率 
就 相当 于 参数 为 p= 1/2 人 


泊 松 过 程 


的 特定 区 间 , 这 些 区 间 上 
1/2*. 对 于 Xi1, Xz， 
白 努 利 独立 随机 变量 . 


能 的 0-1 形式 都 对 应 着 的 


有 相同 的 长 度 , 由 


Es 人 
, 交通 


于 Y 是 均匀 
… ,Xh 来 说 , 这 个 特定 的 联合 分 布 


有 故 的 发 生 数 服 从 一 个 强度 为 每 小 时 5 次 的 泊 松 
事故 的 发 生 数 服从 一 个 独立 的 频率 为 每 小 时 3 次 的 
司 发 生 事故 总 次 数 的 分 布 函数 . 


个 体育 馆 有 5 个 网 球场 .假设 每 对 打球 者 来 到 体育 馆 打 网 球 的 时 间 服 从 均值 为 40 分 
钟 的 指数 分 布 . 现 有 一 对 打球 者 来 到 体育 馆 , 发 现 所 有 的 场地 都 有 人 在 打球 , 且 前 面 有 
对 人 正在 等 待 , 问 他 们 等 待 的 期 望 时 间 是 多 少 ? 

一 个 渔夫 在 钓鱼 , 他 多 到 鱼 的 规律 服从 强度 为 A = 0.6 条 /小 时 的 泊 松 过 程 . 钓鱼 时 间 至 
少 为 两 小 时 .如 果 他 到 两 小 时 的 时 候 至 少 已 经 钓 到 一 条 鱼 , 就 退出 , 否则 , 他 将 一 直 钓 下 
去 直到 钓 到 一 条 为 止 . 

(a) 求 他 的 钓鱼 时 间 超过 两 小 时 (不 含 ) 的 概率 . 

(b) 求 他 钓鱼 的 总 时 间 在 2~5 小 时 之 间 的 概率 . 

(c) 求 他 至 少 钓 到 两 条 鱼 的 概率 . 

(d) 求 他 钓鱼 条 数 的 期 户 . 

(e) 求 他 在 已 经 钓鱼 四 小 时 条 件 下 的 总 钓鱼 时 间 的 期 望 
顾客 离开 书店 服从 一 个 强度 为 入 人 /小 时 的 柏 松 过 程 , 每 一 个 顾客 买书 的 概率 为 p, 并 
独立 于 其 他 顾客 . 


(a) 求 直到 卖 出 第 一 本 书 所 用 时 间 的 分 布 . 


(b) 求 在 


个 特定 


的 小 时 里 , 没有 书 卖 出 的 概率 . 


(c) 求 在 


个 特定 


的 小 时 里 购书 的 顾客 数 的 期 望 . 


一 个 比萨 店 供应 n 种 不 同类 型 的 比萨 饼 , 而 且 在 给 定 的 时 间 区 间 内 , 有 天 名 顾客 , 其 中 
K 服从 均值 为 和 的 泊 松 分 布 . 每 名 顾客 只 买 一 个 比萨 饼 , 并 且 买 哪 种 类 型 的 比萨 饼 是 随 
机 的 , 而 且 与 其 他 顾客 的 选择 是 独立 的 . 求 卖 出 的 比萨 饼 种 类 数 的 平均 值 . 


发 报 机 4 和 已 分 别 以 强度 和 4 和 AB 的 


白松 过 程 的 形式 向 一 个 单独 的 接 


消息 , 所 有 的 信息 都 很 简短 ， 


的 字数 W 的 分 布 列 为 


这 个 分 布 与 来 


因此 我 们 可 以 假设 它们 只 占 ] 


(a) 求 在 持续 时 间 


(b) 设 NN 表示 在 持续 时 间 为 t 的 间 


为 t 的 间隔 里 总 共 收 


2/6， 车 w=1， 
376; 着 WW 二 怨 
pw(w) = 际 
1/6, We 
0， 他 ， 
自 哪个 过 程 无 关 , 同时 各 个 信息 的 字数 W 之 间 也 是 相互 独立 的 . 
到 9 条 信息 的 概率 . 
了 喇 里 接收 到 的 总 字数 , 求 NN 的 期 望 . 


疏 器 独立 地 发 送 
居 了 单个 的 时 间 点 . 每 个 信息 中 
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(c) 求 从 时 刻写 = 0 开始 , 直到 接收 到 8 条 来 自发 报 机 4 的 字数 为 3 的 信息 所 需 时 间 
的 概率 密度 函数 . 

(d) 求 即将 接受 的 12 条 信息 中 恰好 有 8 条 来 自发 报 机 4 的 概率 . 
14. 从 时 刻 t = 0 开始 , 我 们 一 次 使 用 一 个 灯泡 来 为 房屋 照明 , 灯泡 在 坏 了 之 后 会 立刻 进行 更 
换 . 每 一 个 新 灯泡 将 会 从 4 类 型 和 B 类 型 中 等 概率 独立 地 选择 . 对 于 任何 类 型 的 任何 一 
个 特定 的 灯泡 , 其 寿命 X 都 是 随机 变量 , 独立 于 其 他 灯泡 的 寿命 , 且 有 着 如 下 概率 密度 
函数 : 


e 7， 戎 zy>0， 
0, 其 他 . 


对 4 类 型 灯泡 : fx (x) = | 


3e3*， 若 x 0， 
0， 其 他 . 


对 B 类 型 灯泡 : fx(zx) = | 


(a) 求 灯 泡 直 到 第 一 次 用 坏 时 间 的 期 望 . 

(b) 求 在 时 刻 t 之 前 没有 灯泡 用 坏 的 概率 . 

(c) 在 时 刻 t 之 前 没有 灯泡 用 坏 的 条 件 下 , 求 第 一 次 使 用 的 是 4 类 型 灯泡 的 概率 . 

(d) 求 直 到 第 一 个 灯泡 用 坏 时 间 的 方差 . 

(e) 求 第 12 个 灯泡 用 坏 恰好 是 第 4 个 4 类 型 灯泡 用 坏 的 概率 . 

(f) 求 直到 第 12 个 灯泡 用 坏 , 总 共 恰 有 4 个 4 类 型 灯泡 用 坏 的 概率 . 
至 


(g) 求 直到 第 12 个 灯泡 用 坏 的 所 用 时 间 的 概率 密度 函数 或 者 与 之 相关 的 矩 母 函数 . 
(h) 求 前 两 个 B 类 型 灯泡 的 总 照明 时 间 长 于 前 两 个 4 类 型 灯泡 的 总 寿命 的 概率 . 
(i) 假设 此 过 程 在 12 个 灯泡 用 坏 时 立刻 停止 , 试 求 整个 过 程 中 B 类 型 照明 时 间 总 长 度 
的 均值 和 方差 . 
Gj) 在 时 刻 t 之 前 没有 灯泡 用 坏 的 条 件 下 , 试 求 直 到 第 一 个 灯泡 用 坏 所 需 时 间 的 期 望 . 
15. 一 个 服务 站 处 理 两 种 类 型 的 任务 A 和 B( 多 个 任务 可 以 在 服务 站 同时 处 理 ), 两 种 类 型 任 
务 的 到 达 分 别 服 从 参数 为 每 分 钟 4 = 3 和 AB = 4 的 独立 泊 松 过 程 . A 类 种 任务 在 服 
务 站 停留 恰好 一 分 钟 , 而 每 一 个 B 类 任务 在 服务 站 停留 的 时 间 是 一 个 取 整 数值 的 随机 变 
量 , 其 分 布 为 几何 分 布 , 均值 为 2, 并 且 各 任务 的 执行 时 间 相 互 独立 . 假定 服务 站 很 久 以 
前 已 开业 . 
(a) 对 于 一 个 给 定 的 3 分 钟 区 间 , 求 到 达 服 务 站 的 总 任务 数 的 均值 、 方差 和 分 布 列 . 
(b) 我 们 被 告知 在 一 个 10 分 钟 的 区 间 里 恰好 到 达 了 10 个 新 的 任务 , 试 求 其 中 恰好 有 3 
个 是 4 类 任务 的 概率 . 
(c) 已 知 在 时 刻 0 服务 站 是 空闲 的 , 即 没 有 任务 . 试 求 第 一 个 4 类 任务 到 达 之 前 B 类 
任务 到 达 个 数 的 分 布 列 . 
(d) 在 时 刻 上 = 0 恰好 有 2 个 4 类 任务 在 服务 站 执行 , 求 出 在 时 刻 0 之 前 最 后 一 个 A 
类 任务 到 达 时 间 的 概率 密度 函数 . 
(e) 在 时 刻 1, 恰好 有 一 个 B 类 任务 在 服务 站 , 试 求 直 到 这 个 B 类 任务 完成 所 需 时 间 的 
分 布 . 
16. 每 天 早上 你 开车 出 门 时 , 更 愿意 在 几 个 路 口 直接 掉头 行驶 而 不 愿 绕道 , 但 是 很 不 幸 的 是 ， 
在 你 居住 的 附近 地 区 掉头 是 违规 的 , 并 且 和 警车 会 以 强度 为 入 nr 假设 你 决 


汪 


3 


17. 


18.” 


19.” 


定 一 旦 在 7 个 时 间 单 元 内 路 上 没有 出 现 
了 NN 辆 警车 . 
(a) 求 ELV]. 
(b) 给 定 N zn, 试 求 第 n 一 1 辆 警车 和 第 n 辆 警车 之 间 的 间隔 时 间 的 条 件 期 望 . 
(c) 试 求 在 掉头 之 前 等 待 时 间 的 期 望 . 提示 : 对 N 取 条 件 化 . 
圣迭戈 动物 园 的 一 只 袋 驴 每 天 从 洞穴 走 到 食物 盘 进 食 ,再 走 回 去 休息 , 并 且 一 直 重 复 下 
去 , 从 洞穴 走 到 食物 盘 的 时 间 ( 也 是 从 食物 盘 走 到 洞穴 的 时 间 ) 是 20 秒 , 进食 时 间 和 休 
息 时 间 都 服从 均值 为 30 秒 的 指数 分 布 . 这 只 袋 能 在 来 回 进食 的 路 上 将 会 以 1/3 的 概率 
瞬间 站 立 一 会 儿 (时 间 很 短 可 以 忽略 ), 至 于 在 哪个 时 刻 站 立 则 是 完全 随机 的 . 袋 能 的 行 
为 在 各 个 阶段 之 间 是 相互 独立 的 . 一 个 摄影 师 在 随机 时 刻 到 达 并 且 可 以 在 袋 能 站 立 的 时 
吴 立 即 拍摄 照片 , 试 求 : 摄影 师 完成 拍摄 需要 等 待 的 时 间 长 度 的 期 望 . 
戎 虑 一 个 泊 松 过 程 , 已 知 在 给 定 的 时 间 间 隔 [0, 习 内 只 发 生 一 个 单个 到 达 , 试 证 : 到 达 时 
闻 的 概率 密度 函数 在 区 间 [0,4 上 是 均匀 分 布 的 . 
证 明 ”考虑 一 个 区 间 [a,8] C [0,4], 其 长 度 为 1=b 一 a, 设 代 表示 第 一 次 到 达 的 时 刻 , A 
表示 在 [0, 如 中 单个 到 达 发 生 的 事件 , 我 们 有 
P(Tel[la,d fA) 

P(A) : 
其 中 分 子 等 于 概率 P(1,1)P(0,t 一 7), 即 泊 松 过 程 在 长 度 为 1 的 区 间 [a, 08] 内 恰好 发 生 一 
次 到 达 的 概率 乘 以 在 总 长 度 为 t+ 一 1 的 集合 [0,a) UU(b, 引 中 有 0 次 到 达 的 概率 . 这 样 ， 


只 


车 , 你 就 会 掉头 一 次 , 且 设 在 你 掉头 之 前 看 到 


P(T € [a,0]|A) = 


T 


加 e-xXie-X(t-D 
P(T € [a,0]|A) = 一 了 i 三 


这 就 证 明了 了 是 服从 均匀 分 布 的 . 
(a) 设 XI 和 X2 是 相互 独立 的 参数 为 和 和 和 2 指数 随机 变量 , 求 max{X1, X2} 的 期 


望 


(b) 设 Y 服从 参数 为 和 的 指数 分 布 , 2 服从 参数 为 Xa 的 2 阶 埃 尔 朗 分 布 , 假设 Y 和 2 
相互 独立 , 求 max{Y 2 的 期 望 . 
解 种 直接 但 是 繁琐 的 方法 是 首先 算得 感 兴 趣 的 随机 变量 的 概率 密度 函数 , 然后 计算 
积分 求 得 它 的 期 望 值 , 然而 更 简单 的 方法 则 可 以 通过 将 感 兴趣 的 随机 变量 根据 潜在 的 泊 
松 过 程 进行 解释 而 获得 . 
(a) 考虑 两 个 独立 的 强度 分 别 为 入 和 和 2 的 泊 松 过 程 , 我 们 将 Xi 和 Xs 分 别 解释 为 第 
一 个 过 程 和 第 二 个 过 程 的 首次 到 达 时 间 , 设 了 = min{Xi,X2} 表示 两 个 过 程 合并 
以 后 的 首次 到 达 时 间 , 5S = max{f Xi, X2} 一 全 表示 直到 两 个 过 程 都 出 现 到 达 的 增加 
时 间 . 因为 合并 的 过 程 是 强度 为 和 十 和 2 的 泊 松 过 程 , 我 们 有 
1 
后 和 1 十 和 2 


对 于 8 有 两 种 情况 需要 考虑 : 
i 第 一 次 到 达 来 自 于 第 一 个 过 程 , 这 种 情况 出 现 的 概率 是 At/CA + 2), 此 时 我 
们 仍 需 等 待 第 二 个 过 程 的 一 个 到 达 , 平均 来 说 需要 时 间 1/X. 


一 
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(ii 第 一 次 到 达 来 自 于 第 二 个 过 程 , 这 种 情况 出 现 的 概率 是 和 2/(A1 十 和 2), 此 时 我 
们 仍 需 等 待 第 一 个 过 程 的 一 个 到 达 , 平均 来 说 需要 时 间 1/ 和 1. 综 上 , 我 们 得 到 
1 | 入 1 . 1 | 入 2 . 1 
a | 
1 Na 
= 入 2 让 
(b) 考虑 两 个 独立 的 参数 分 别 为 入 和 和 A。 的 泊 松 过 程 , 我 们 将 Y 和 2 分 别 解释 为 
第 一 个 过 程 的 首次 到 达 时 间 和 第 二 个 过 程 的 第 二 次 到 达 时 间 , 设 全 表示 两 个 过 程 
合并 以 后 的 首次 到 达 时 间 . 因为 合并 过 程 是 强度 为 Xi + Xa 的 泊 松 过 程 , 我 们 有 
E[T] = 1/(A1 十 和 2). 这 里 有 两 种 情况 需要 考虑 . 

(i) 在 时 刻 工 的 到 达 来 自 第 一 个 过 程 , 这 种 情况 出 现 的 概率 是 AI/(Ai 十 和 2), 此 时 
我 们 仍 需 等 待 第 二 个 过 程 的 两 个 到 达 , 这 个 增加 时 间 服 从 参数 为 2 的 2 阶 埃 
尔 朗 分 布 , 期 望 时 间 为 2/ 和 2. 

(ii 在 时 刻字 的 到 达 来 自 第 二 个 过 程 , 这 种 情况 出 现 的 概率 是 和 2/ (A1 十 和 2), 此 时 
我 们 仍 需 等 待 的 增加 时 间 8 是 直到 两 个 过 程 各 出 现 一 个 到 达 所 需 的 时 间 , 这 
是 两 个 独立 指数 分 布 随机 变量 的 最 大 值 . 由 (a) 部 分 得 到 的 结果 , 我 们 有 

1 A 
ls 和 1 十 X2 @ A e). 
综 上 , 我 们 得 到 
Rl 
Shad 和 +A A+ 》X A ELS), 
其 中 E[S] 的 值 由 前 述 公 式 给 出 . 
20.” 设 又 表示 参数 为 和 的 泊 松 过 程 中 第 个 到 达 的 时 间 , 试 证 明 , 对 所 有 的 y > 0 都 有 
> fri (y) = 和 
= 
解 ” 我 们 有 
co oo Mek-1lo—XY 
5 Sk k—1l1 ye le 一 Y 
入 
-> a ( 取 m=k 一 1) 
co9 My™e NY 
二 入 . 
最 后 一 个 等 式 成 立 是 因为 X"wyme yj]mmnl 这 一 项 是 参数 为 Ay 的 泊 松 分 布 的 随机 变量 取 
值 为 m 的 概率 值 , 因此 其 和 必 为 1. 
一 个 更 为 直观 的 推导 过 程 如 下 . 设 6 是 一 个 很 小 的 正 数 , 考虑 如 下 事件 : 
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22.” 


23.” 


A : 第 次 到 达 发 生 在 yy 和 ?十 5 之 间 , 这 个 事件 发 生 的 概率 为 P(Ak) ~ fy, ()5; 
4 :一 次 到 达 发 生 在 yy 和 yy 十 5 之 间 , 这 个 事件 发 生 的 概率 为 P(A4) ~ X5; 

假设 5 被 取得 足够 小 以 至 于 在 一 个 长 度 为 5 的 区 间 内 发 生 两 次 或 更 多 次 到 达 的 概率 可 以 

被 忽略 . 通过 这 种 近似 , 事件 41, 4a,…… 不 相交 , 它们 的 并 集 是 4, 因此 ， 


>》 ji 人 6》 P(Ar) SP(A) 6, 
b= R= 


所 需 结论 只 要 将 两 边 的 6 消去 即 可 . 
考虑 两 个 参数 分 别 为 和 和 Xz 的 独立 泊 松 过 程 . 设 Xi(k) 和 X2(k) 分 别 表示 第 一 个 过 
程 和 第 二 个 过 程 中 第 ey 证 明 : 


R= 
解 ”考虑 合并 的 参数 为 Xi + Xa 的 泊 松 过 程 , 每 一 次 当 合并 的 泊 松 过 程 中 出 现 一 个 到 达 
时 , 它 来 自 第 一 个 过 程 (成 功 ) 的 概率 为 Xi/(Xi 十 和 2), 来 自 第 二 个 过 程 (失败 ) 的 概率 为 
A2/(A1 十 和 2). 考虑 n 十 m 一 1 次 到 达 之 后 的 情况 , 来 自 第 一 过 程 的 到 达 至 少 有 m 次 当 
仅 当 来 自 第 二 个 过 程 的 到 达 数 少 于 m, 这 种 情况 的 发 生 当 且 仅 当 第 n 次 成 功 发 生 在 第 
m 次 失败 之 前 . 这 样 , 事件 {Xi(n) < X2(m)} 就 相当 于 在 前 nw 十 m 一 1 次 试验 中 至 少 成 
功 次 这 个 事件 . 在 一 个 具有 确定 试验 次 数 的 试验 中 , 成 功 次 数 的 分 布 列 是 二 项 分 布 列 ， 


我 们 有 
n+m—1 _ 1 入 k 和 n+i+m—1l—k 
X1(n) < Xa(n)) = > 人 es ) (ss) (CR 


Re 

随机 数目 个 独立 伯 努 利 随 机 变量 之 和 . 设 N, Xi1, X2,:.. 是 独立 随机 变量 , NN 取 非 负 整 

数 , 随机 变量 X; 服从 参数 为 p 的 伯 努 利 分 布 . 当 N > 0 时 , 定义 和 = Xi 十:… 十 XN， 

否则 定义 Y = 0. 证 明 : 

(a) 如 果 N 是 参数 为 m 和 9 的 二 项 分 布 , 则 了 是 参数 为 m 和 pg 的 二 项 分 布 ; 

(b) 如 果 N 是 参数 为 和 的 泊 松 分 布 , 则 Y 是 参数 为 Xp 的 泊 松 分 布 . 

解 (a) 将 伯 努 利 过 程 Xi1,X2,…. 进行 分 裂 , 以 概率 9 接受 , 以 概率 1 - 9 放弃 . 分 裂 
后 产生 两 个 随机 过 程 , 第 一 个 随机 过 程 是 分 裂 中 接受 的 随机 过 程 , 第 二 个 随机 过 程 
是 分 裂 中 放弃 的 随机 过 程 . 而 Y 是 第 一 个 过 程 前 m 次 试验 成 功 的 次 数 . 因为 分 裂 
过 程 是 伯 努 利 的 , 参数 为 pg, 所 以 Y 是 参数 为 m 和 pg 的 二 项 分 布 . 

(b) 将 参数 为 和 的 泊 松 过 程 进行 分 裂 , 以 概率 p 接收 , 以 概率 1 一 p 放弃 . 则 了 是 在 
单位 时 间 内 分 裂 过 程 到 达 的 次 数 . 具有 表达 式 = Xi 十 … 十 XN, 其 中 N 是 原 
来 的 泊 松 过 程 在 单位 时 间 内 到 达 的 个 数 , 由 于 每 一 个 到 达 要 分 裂 , Y 刚好 是 分 裂 过 
程 在 单位 时 间 内 的 到 达 次 数 . 因为 分 裂 过 程 是 泊 松 的 , 参数 为 pA, 所 以 Y 是 参数 为 
Ap 的 泊 松 分 布 . 

个 数 为 几何 随机 分 布 的 独立 指数 随机 变量 之 和 . 设 了 = Xi 十 … 十 XN, 其 中 随机 变量 X; 

服从 参数 为 和 的 指数 分 布 , 且 N 服从 参数 为 p 的 几何 分 布 , 假设 随机 变量 N, Xi1, X2,…… 

是 独立 的 , 在 不 使 用 矩 母 函数 的 前 提 下 证 明 : Y 服从 参数 为 Xp 的 指数 分 布 . 提示 : 根据 

分 裂 的 泊 松 过 程 随机 变量 的 含义 来 证 明 . 
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类 


24. 


25.” 


解 ”我 们 在 第 4 章 利 用 和 矩 母 函数 的 方法 得 到 了 这 个 结论 , 但 是 在 这 里 要 得 到 更 加 直观 
的 推导 . 分 别 将 随机 变量 和 和 作 如 下 解释 , 将 时 刻 Xi, Xi 十 X2,… 视 作 参数 为 入 
的 泊 松 过 程 中 的 到 达 时 刻 . 现在 将 这 个 过 程 (我 们 称 为 原 过 程 ) 进行 分 裂 , 每 一 个 到 达 以 
概率 1 一 p 拒绝 , 以 概率 p 接受 , 将 接受 的 到 达 形 成 分 裂 过 程 的 到 达 , 分 裂 过 程 是 参数 
为 p 的 泊 松 过 程 . 我 们 将 N 解释 为 第 一 次 接受 时 原 过 程 到 达 的 个 数 , 注意 到 随机 变量 
Y= XI +X2s 十 … 十 XN 就 是 原 过 程 的 到 达 中 第 一 次 被 接受 的 时 间 , 这 个 时 间 也 是 分 裂 
过 程 的 第 一 次 到 达 时 间 , 按 泊 松 过 程 的 定义 , 这 个 分 裂 过 程 的 第 一 次 到 达 时 间 的 分 布 是 参 
数 为 p 的 指数 分 布 . 
泊 松 过 程 在 指数 分 布 的 随机 区 间 内 的 到 达 个 数 . 考虑 一 个 参数 为 和 泊 松 过 程 和 一 个 独立 
的 参数 为 v 的 指数 分 布 随机 变量 T, 计算 在 时 间 区 间 [0, 了 T] 内 的 泊 松 过 程 到 达 个 数 的 分 
布 列 . 
解 ”让 我 们 将 工 视 作 一 个 新 的 独立 的 参数 为 v 的 泊 松 过 程 第 一 次 到 达 的 时 间 , 并 且 将 此 
过 程 与 原始 过 程 合 并 . 在 这 个 合并 的 过 程 中 , 每 一 个 到 达 来 自 原始 过 程 的 概率 为 (和 +v)， 
独立 于 其 他 到 达 . 如 果 我 们 将 合并 过 程 中 的 每 一 次 到 达 都 看 作 是 一 次 试验 , 将 来 自 新 过 
程 的 到 达 都 视 作 一 次 成 功 的 话 , 注意 到 , 直到 第 一 次 成 功 的 到 达 数 (试验 数 )K 是 几何 分 
布 , 它 的 分 布 列 是 


Vv 入 3 
本 


而 第 一 次 成 功 之 前 来 自 原始 泊 松 过 程 的 到 达 数 工 等 于 K 一 1, 并 且 它 的 分 布 列 为 


moO=aetrD=( (2 )， Ped Lem, 


无 限 服务 队列 . 我 们 考虑 一 个 拥有 无 限 个 服务 者 的 排队 系统 , 在 此 系统 中 的 顾客 以 强度 
为 和 的 泊 松 过 程 到 达 . 第 i 个 顾客 在 系统 中 停留 一 段 随机 时 间 , 记 为 X;. 我 们 假设 随机 
变量 X; 独立 同 分 布 , 并 且 独 立 于 到 达 过 程 . 为 了 简单 起 见 , 我 们 还 假设 Xi 以 给 定 的 概 
率 取 1,… ,n 中 的 整数 值 . 试 计算 在 时 刻 t 时 系统 中 的 顾客 数 Ni 的 分 布 列 . 

解 ”我 们 将 那些 在 系统 中 停留 时 间 X; 为 的 顾客 记 为 “类 型 kx” 顾客 . 可 以 将 整个 到 
达 过 程 看 作 是 n 个 子 泊 松 过 程 的 合并 , 第 个 子 过 程 就 相应 于 “类 型 kp” 顾客 的 到 达 过 
程 , 它 独立 于 其 他 过 程 且 频 率 为 Apx, 其 中 pi = 了 (Xi = ), 令 NE 表示 在 时 刻 t 系统 中 
的 “类 型 K” 顾客 数 , 这 样 就 有 


随机 变量 NK 是 独立 的 . 

我 们 现在 计算 NK 的 分 布 列 . 一 个 “类 型 k” 顾 客 在 时 刻 t 在 系统 中 当 且 仅 当 那个 
顾客 是 在 时 刻 t 一 k 和 时 刻 t 之 间 到 达 的 , 因此 , NK 具有 均值 为 Xpx 的 泊 松 分 布 , 由 于 
独立 泊 松 随机 变量 之 和 依然 服从 泊 松 分 布 , 于 是 我 们 有 Ni 服从 参数 如 下 的 泊 松 分 布 列 ， 


E[N] = A kpn = AE[X:]. 


= 


26.” 分裂 的 泊 松 过 程 的 独立 性 . 考虑 一 个 泊 松 过 程 , 以 独立 的 成 功 概率 为 p 的 投 硬币 的 方式 ， 
将 之 分 裂 为 两 个 过 程 . 在 例 6.13 中 , 我 们 得 出 了 每 一 个 子 过 程 都 是 泊 松 过 程 的 结论 , 现 
在 证 明 这 两 个 子 过 程 是 独立 的 . 

解 ”让 我 们 从 两 个 独立 的 强度 分 别 为 D 和 (1 一 p) 和 的 泊 松 过 程 Pi 和 Ps 开始 , 将 两 过 
蛙 合并 得 到 一 个 强度 为 和 的 泊 松 过 程 万 , 然后 按照 如 下 规则 将 过 程 PP 分 裂 为 两 个 子 过 程 
Pt 和 7P2: 一 个 到 达 注 册 为 子 过 程 Pi( 或 P3), 当 且 仅 当 该 到 达 是 来 自 子 过 程 Pi( 或 P). 
很 明显 , 新 的 两 个 子 过 程 Pl 和 Ps 是 独立 的 , 因为 它们 就 等 同 于 原始 的 子 过 程 P 和 Ps. 
然而 , 产生 子 过 程 PE 和 P2 的 分 裂 机 制 与 题目 中 的 陈述 看 上 去 并 不 一 致 . 我 们 现在 就 要 
证 明 这 个 新 的 分 裂 机 制 在 统计 意义 上 是 等 同 于 题目 中 的 陈述 的 . 进而 将 会 得 到 , 按 题 目 
中 的 陈述 构造 的 子 过 程 与 上 述 子 过 程 Pl 和 Ps 具有 相同 的 统计 性 质 , 所 以 是 独立 的 . 
现在 我 们 考虑 上 述 分 裂 机 制 . 假设 过 程 P 在 时 刻 t 出 现 一 个 到 达 , 这 将 或 者 来 自 子 
过 程 Pi (以 概率 p), 或 者 来 自 于 子 过 程 P2z( 以 概率 1 一 p). 因此 这 个 过 程 PP 的 到 达 注册 
到 子 过 程 Pf 和 PP 的 概率 分 别 为 p 和 1 一 py, 与 题目 中 描述 的 分 裂 过 程 一 致 . 现在 考虑 
过 程 PP 中 的 第 大 个 到 达 ， 令 Lk 表示 这 个 到 达 来 自 子 过 程 Pi 这 个 事件 , 这 与 第 天 
个 到 达 注 册 到 子 过 程 Pi 这 个 事件 是 完全 一 样 的 . 就 像 在 例 6.14 中 解释 的 , 事件 Li 是 
独立 的 . 这 样 , 对 于 不 同 的 到 达 , 它们 注册 到 子 过 程 Pt 和 Ps 也 是 独立 的 . 这 说 明 将 PP 
分 裂 成 PE 和 有 的 统计 机 制 与 题目 中 所 描述 的 分 裂 机 制 是 一 样 的 . 题目 中 所 分 裂 的 两 
个 过 程 与 Pf 和 7P% 的 统计 性 质 是 一 样 的 . 由 于 Pf 和 PP 是 相互 独立 的 , 由 题目 中 分 裂 
得 到 的 两 个 子 过程 也 是 相互 独立 的 . 
27.” 在 埃 尔 朗 到 达 过 程 中 的 随机 插入 .考虑 一 个 到 达 过 程 , 其 中 到 达 间 隔 时 间 是 独立 的 均值 
为 2/ 和 的 2 阶 埃 尔 朗 随 机 变量 , 假设 过 程 已 经 进行 了 很 长 一 段 时 间 . 一 个 外 在 观测 者 于 
时 刻 上 到 达 , 求 包含 t 的 到 达 间 隔 区 间 长 度 的 概率 密度 函数 . 
解 ”我 们 将 题目 中 所 说 的 埃 尔 朗 到 达 过 程 视 作 强度 为 和 的 泊 松 过 程 的 一 部 分 . 特别 的 ， 
泊 松 过 程 每 出 现 两 次 到 达 则 埃 尔 朗 过 程 出 现 一 次 到 达 , 更 具体 地 , 我 们 可 以 说 埃 尔 朗 过 程 
的 到 达 相 当 于 泊 松 过 程 中 的 偶数 次 到 达 . 设 丈 表示 泊 松 过 程 中 第 次 到 达 的 时 间 . 
取 满 足 Yk < t < Yx4i 的 天, 通过 文中 对 泊 松 过 程 的 随机 插入 的 讨论 , 我 们 知道 
Yx+1 一 Yx 服从 2 阶 埃 尔 朗 分 布 , 而 这 里 考虑 的 埃 尔 朗 过 程 的 到 达 间 隔 区 间 根 据 K 的 
时 奇 分 别 具 有 形式 [Yk ,Ykxj42] 或 者 [Yx_1,Yx41]. 在 第 一 种 情况 中 , 埃 尔 衣 过 程 的 到 达 
间隔 时 间 具 有 形式 (Ykxj41 一 Ykx) 十 (Yx42 一 Ykx41). 这 里 Ykj2 一 Ykx41 服从 参数 为 和 的 
指数 分 布 , 且 独立 于 Ykx+41 一 Yx. 事实 上 , 一 个 观测 者 在 时 刻 t 到 达 并 发 现 KK 是 偶数 , 则 
必须 首先 等 待 到 下 一 个 泊 松 到 达 时 刻 Yrx+i. 从 那个 时 刻 起 , 泊 松 过 程 重 新 开始 , 所 以 到 
下 一 个 泊 松 到 达 所 需 时 间 Ykxj42 一 Yx+l 是 独立 于 过 去 的 (也 就 独立 于 Yrx+1 — Yk), 并 
服从 参数 为 和 的 指数 分 布 . 这 就 说 明 , 在 K 是 偶数 的 条 件 下 , 埃 尔 朗 过 程 的 到 达 间 隔 
时 间 区 间 长 度 Yx42 一 Yx+1 是 一 个 3 阶 埃 尔 朗 分 布 ( 因为 它 是 一 个 指数 随机 变量 和 2 
阶 埃 尔 衣 随机 变量 之 和 ). 同 理 可 得 , 在 K 是 奇数 的 条 件 下 , 埃 尔 朗 过 程 的 到 达 间 隔 时 间 
区 间 长 度 Yx+1 一 Yx-1 的 条 件 概率 密度 函数 是 一 样 的 . 因为 对 于 每 一 个 条 件 , 包含 时 刻 
t 的 到 达 间 陋 区 间 长 度 的 条 件 概率 密度 函数 都 是 3 阶 埃 尔 朗 分布 , 这 样 , 覆盖 t 的 相 邻 的 

到 达 区 间 的 长 度 的 无 条 件 分 布 也 是 3 阶 埃 尔 朗 分 布 . 
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第 6 章 所 讨论 的 伯 努 利 过 程 和 泊 松 过 程 
依赖 于 过 去 的 状态 : 新 的 “成 功 ” 或 


中 , 我 们 将 考虑 未 来 会 依赖 于 
情况 预测 未 来 . 


我 们 强调 的 模型 里 , 过 去 对 未 来 的 影响 归结 
时 间 变 化 . 进一步 地 , 我 们 讨论 的 模型 9 
将 分 析 状 态 值 序列 的 概率 性 质 . 


本 章 中 介绍 的 模型 的 应 用 范 


过 去 的 过 程 


证 


SA 


二 


统 的 状态 随时 间 变 化 , 具有 不 看 
中 


7.1 


是 无 记忆 性 的 , 也 就 是 未 来 的 状态 不 
“到 达 ” 不 依赖 于 该 过 程 过 去 
并 且 能 够 在 某 种 程度 上 i 


的 历史 . 在 本 章 
通过 过 去 发 生 的 


为 对 状态 的 影响 , 它 的 概率 分 布 随 


Ph, 假设 变量 取 值 的 状态 只 取 有 限 个 值 . 我 们 


是 很 广 的 . 它 包 含 了 几乎 全 部 的 动力 系统 . 该 系 


定性. 这 种 系统 如 
动 控制 、 信 息 传输 、 制 造 业 、 经 济 以 及 运筹 学 . 


E 很 多 领域 都 有 应 


离散 时 间 的 马尔 可 夫 链 


书 , 例如 , 通信 、 


我 们 首先 考虑 离散 时 间 的 马尔 可 夫 链 , 其 中 状态 在 确定 的 离散 时 间 点 上 发 生变 


化 , 由 于 时 间 已 经 离散 化 , 通常 使 
链 的 状态 , 


般 性 , 除非 男 有 陈述 , 我 们 用 5 = 


正 整数 . 马尔 可 夫 链 | 
概率 是 pij. 数学 上 表示 为 


Dij = P(Xnt1 = j 


转移 概率 p;; 所 


{1,... ,m} 
述 : 即 


Xn 一 2) 


jeS. 


马尔 可 夫 链 的 核心 假设 是 只 要 时 刻 ”的 状态 为 i, 不 论 过 去 发 4 


] 变 量 n 来 表示 时 刻 . 在 任意 时 刻 n, 用 X,, 表示 
假定 所 有 可 能 状态 组 成 有 限 集合 5, 称 该 集合 为 状态 空间 , 不 失 一 
表示 这 个 状态 空间 , 其 中 mm 为 某 一 个 
当 状 态 是 ; 时 , 下 一 个 状态 等 于 j 的 


E 了 什么 , 也 不 论 链 
是 如 何 到 达 状 态 i 的 , 下 一 个 时 刻 转 移 到 状态 7 的 概率 就 一 定 是 转移 概率 p;;. 数 


学 上 , 马尔 可 夫 链 的 特征 称 为 马尔 可 夫 性 质 , 即 满 足 : 对 于 任意 的 时 间 mw 对 任意 的 
状态 i,j€ S, 以 及 任意 之 前 可 能 的 状态 序列 io,… ,in-1, 均 有 


P(Xn41 = jX, = i XK, 


转移 概率 pi 一 定 是 非 负 的 , 且 其 和 为 1, 即 


前 一 个 状态 Xi。 


所 以 , 下 一 个 状态 Xn+1 的 概率 分 布 只 依赖 了 


=in1, ,Xo=io)= P(X = Xn = 1) = pi;. 


7.1 
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>》 Dj 二 1 对 所 有 的 i 成 立 . 


j=l 


我 们 也 认为 状态 发 生 了 一 次 特殊 的 转移 (“ 


通常 pi; 可 取 正 值 , 这 样 下 一 个 状态 有 可 能 和 当前 状态 一 样 . 就 算 状态 不 发 生变 化 ， 
自身 转移 ”)， 


马尔 可 夫 模 型 的 性 质 


(a) 状态 集合 S = {1,… ,rm 


(c) pi 的 取 值 ( 取 正 值 ). 


可 能 的 状态 序列 io0,… ,各 -1 均 有 


P(Xn+1 = j|Xn = i, Xn_1 


(b) 可 能 发 生 状 态 转移 (i, 站 的 集合 ， 


。 一 个 马尔 可 夫 链 模型 由 以 下 特征 确定 : 


= 


即 由 所 有 pi; >0 的 (27) 组 成 ， 


。 由 该 模型 描述 的 马尔 可 夫 链 是 一 个 随机 变量 序列 Xo, Xi1,X2,…, 它们 取 
直 于 S, 并 且 满 足 : 对 于 任意 的 时 间 mw 所 有 状态 i,j E S, 以 及 所 有 之 前 


., Xo0 三 加 0) = pij. 


马尔 可 夫 链 可 以 由 转 条 概率 矩阵 所 刻画 , 它 是 一 个 简单 的 二 元 矩阵 , 其 第 i 行 


pil1 P12 
p21 p22 
pml Pm2 


PpP1im 


72m 


2 Pmm 


同时 , 也 可 以 直观 地 用 转移 概率 图 表示 马尔 可 夫 链 , 图 中 用 节点 (node) 表示 状态 ， 


连接 节点 的 (有 向 ) 弧 线 (arc) 表示 可 能 发 生 的 转移 . 将 pi; 的 数 
线 旁 边 , 这 样 做 可 使 得 整个 模型 更 加 直观 , 模型 


值 标记 在 相应 的 弧 


的 主要 性 质变 得 显而易见 . 


例 7.1 爱丽 丝 上 一 门 概率 课程 , 每 周 她 可 能 进步 , 也 可 能 落后 . 如 果 在 给 定 的 一 


周 里 她 进步 了 , 那么 她 下 一 周 进步 (或 沙 后 


给 定 的 一 周 里 她 落后 了 , 那么 她 下 一 周 进步 (或 落后 


) 的 概率 是 0.8 (或 0.2); 相应 地 , 如 果 在 


) 的 概率 是 0.6 (或 0.4. 我 们 


假设 这 些 概率 都 不 依赖 于 她 之 前 的 每 周 是 否 进步 或 落后 , 所 以 该 问题 就 是 一 个 典型 


的 马尔 可 夫 链 问题 (未 来 的 状态 依赖 过 去 上 


p11 三 0.8, Ve 0.2, D1 0.6, B23 二 0.4, 


的 方式 是 只 依赖 于 当前 状态 来 体现 ). 
我 们 令 状态 1 和 状态 2 分 别 表 示 进 步 和 落后 , 那么 转移 概率 为 
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转移 概率 矩 


居 


是 


转移 概率 图 见 图 7.1. 


例 7.2 (蜘蛛 和 苍蝇 ) ”一 只 苍蝇 在 一 条 直线 上 移动 , 每 次 移动 一 个 单位 长 度 . 每 单 
位 时 间 , 它 以 0.3 的 概率 向 左 移动 一 个 单位 , 以 0.3 的 概率 向 右 移动 一 个 单位 , 且 以 


进步 0. 
图 7.1 例 7.1 中 的 转移 概率 图 


6 落后 


0.4 的 概率 停留 在 原 地 ， 


并 且 它 们 独立 于 过 去 的 移动 . 两 只 蜂 蛛 等 在 位 置 1 和 位 置 


m: 如 果 苍 晶 到 达 这 两 个 位 置 , 它 将 被 蜘蛛 捕捉 , 于 是 过 程 就 结束 . 我 们 将 应 用 马尔 


可 夫 链 模型 , 假设 苍蝇 开 
我 们 令 状态 为 1,2,… 


| 0.3， 若 7 了 =i 一 1 或 者 j=i+1， 
pij; = 


始 位 于 1 和 m1 


FP 间 的 某 一 个 位 置 . 


. ,m, 表示 苍蝇 对 应 着 的 位 置 . 于 是 非 零 转移 概率 为 


p11 = 1, 


0.4， 若 j=% 
转移 概率 图 以 及 转移 概率 矩阵 见 图 7.2. 


CD Hep 
PN 下 


0.4 0.4 


pmm 一 1 


图 7.2 例 7.2 中 的 转移 概率 图 和 转移 概率 矩阵 , 其 中 m= 4 


例 7.3 (机 器 出 现 故 


能 出 现 故 障 . 如 果 它 正常 工作 ， 


在 下 一 大 正常 工作 . 如 果 它 在 该 天 出 现 故 


下 一 天 正常 工作 , 并 且 以 概率 1 一 7 在 下 


我 们 利用 马尔 可 夫 链 


章 、 维 修 和 更 换 ) ”一 台 机 器 在 给 定 的 某 天 可 能 正 币 工作 也 可 
那 它 以 概率 5 在 下 一 天 出 现 故障 , 并 且 以 概率 1 一 5 


障 , 那 就 维修 这 台 机 器 . 则 它 以 概率 7 在 


一 天 仍然 出 现 故 障 . 


全 该 机 器 的 状态 建立 模型 , 两 个 状态 如 下 : 


7.1 离散 时 间 的 马尔 可 夫 链 
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状态 1: 机 器 正常 工作 ; 状态 2: 机 器 出 现 故 障 . 
转移 概率 图 如 图 7.3 所 示 . 转移 概率 和 矩阵 为 


正常 工作 出 现 故 障 
图 7.3 例 7.3 中 的 转移 概率 图 


这 里 的 状态 转移 显然 具有 马尔 可 夫 性 质 : 第 二 天 机 器 的 状态 上 只 依赖 于 当天 的 
状态 . 但 是 , 就 算 状 态 是 依赖 于 前 几 天 的 状态 , 也 是 可 以 利用 马尔 可 夫 链 模型 的 . 一 


般 的 想法 是 添加 新 的 状态 来 刻画 过 去 相关 的 信息 , 下 面 介绍 这 种 处 理 方法 . 


假设 只 要 机 器 在 ! 天 内 都 出 现 故 障 的 话 , 那么 就 用 一 台新 机 器 代替 这 人 台 机 器 . 


为 了 利用 马尔 可 夫 链 模型 , 我 们 将 原来 的 表示 机 器 出 现 故障 的 状态 2, 用 几 个 新 的 


状态 代替 , 这 些 状态 包含 了 机 器 出 现 故 障 的 天 数 . 它们 是 
状态 (2, 引 : 机 器 已 经 出 现 故 障 守 天，1 = 1,2,… ,lL. 


该 转移 概率 图 如 图 7.4 所 示 , 其 中 1 = 4. 
正常 工作 ， 出 现 故 障 


新 的 能 正常 工作 的 机 器 


图 7.4 例 7.3 中 第 二 部 分 的 转移 概率 图 . 如 果 机 器 持续 出 现 故 障 1 = 4 天 将 会 被 换 成 一 个 


前 面 例子 的 第 二 部 分 说 明了 如 果 想 建立 马尔 可 夫 模 型 , 我 们 需要 根据 未 来 状态 


对 过 去 的 依赖 性 建立 新 的 状态 . 我 们 要 注意 的 是 , 添加 新 的 状态 具有 一 定 的 
但 是 一 般 而 言 , 数量 要 尽量 少 , 这 样 是 为 了 避免 分 析 或 计算 的 麻烦 . 


7.1.1 ”路 径 的 概率 


WE 


由 性 ， 


给 定 一 个 马尔 可 夫 链 模型 , 我 们 可 以 计算 未 来 任何 一 个 给 定 状态 序列 的 概率 . 
这 类 似 于 在 序 贯 树 形 图 中 乘法 规则 (the multiplication rule) 的 应 用 . 特别 地 , 我 们 


有 


P(Xo = i0, Xi1= i, ,Xn = in) mE P(Xo 一 io)pioiiPiis ii 
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为 证 明 该 性 质 , 注意 到 
了 (Xo = io, X1 = i ,Kn = in) 
P(Xn, = in|Xo= io,. ,Xn 1 = in 1)P(Xo= io,.: ,Xn_1 = in_1) 


=pi,_1i, P(Xo = 20， pg | EE i 1), 
中 最 后 一 个 等 式 我 们 利用 了 马尔 可 夫 链 的 性 质 ， 接 下 来 应 用 同样 的 方法 来 计算 
P(Xo = i0,… ,Xn_1 = 各) 依次 计算 下 去 就 可 以 得 到 我 们 所 期 望 的 形式 ， 如果 
初始 状态 Xo 已 知 ; 且 等 于 某 个 20， 那么 类 似 的 了 导 可 得 


P(X1 = Rn = in|X0= 0) 三 太太 2 
图 形 上 , 一 个 状态 序列 能 表示 为 在 转移 概率 图 中 一 个 转移 弧 线 序列 , 并 且 在 给 定 初 
始 状态 下 , 该 路 径 的 概率 等 于 每 个 弧 线 上 转移 概率 的 乘积 . 
例 7.4 ”对 于 蜂 蛛 和 苍 临 例子 ( 例 7.2) 中 , 我 们 有 
P(X1 = 2, X2 = 2, Xs = 3,X4=4|Xo= 2)= p22p22p23p34 = (0.4)2(0.3)2. 
我 们 也 可 以 得 到 
P(Xo = 2, X1 = 2, X=2,X3=3,X4=4)=P(Xo = 2)p22p22p23D34 
=P(Xo = 2)(0.4)2(0.3)2. 
注意 , 要 计算 上 述 非 条 件 形式 的 路 径 概 率 , 需要 知道 初始 状态 Xo 的 概率 分 布 . 
7.1.2 n 步 转移 概率 
许多 马尔 可 夫 链 问题 要 求 计 算 在 当前 状态 的 条 件 下 , 未 来 某 个 时 期 状态 的 概率 
分 布 . 这 个 概率 称 为 n 步 转 移 概 率 , 定义 为 
rij(n) = P(Xn = j|Xo = 0. 
换 句 话说 , rij(n) 表示 在 给 定 当 前 状态 i 的 条 件 下 , n 个 时 间 有 段 后 的 状态 将 是 j 的 
概率 . 它 可 以 通过 下 面 的 基本 迭代 公式 计算 , 该 公式 被 称 为 查 普 曼 一 科 尔 莫 义 罗 夫 
方程 (Chapman-Kolmogorov 方程 , 也 即 C-K 方程 ). 


n 步 转移 概率 的 查 普 曼 ~ 科 尔 莫 戈 罗 夫 方程 
n 步 转移 概率 利用 迭代 公式 求 得 


Tij(n) 二 》 Tig(n 一 1)pkj 对 于 所 有 n> 1,i,j 成 立 ， 


k=1 


7i(1) = Di 
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为 证 


明 该 公式 , 我 们 只 需 应 用 如 下 全 概率 公式 : 


P(Xn = jlXo=2)=> Pi = kX0=iP(X, = Xn 1 = hk, Xo=) 


= ,rir(n — 1)pgy; 


我 们 在 这 里 利用 了 马尔 可 夫 性 质 : 只 要 以 X,_1 = 大 为 条 件 , 那么 条 件 Xo = i 将 不 


会 对 下 一 


图 7.5 


步 到 达 ; 的 概率 px; 产生 影响 . 图 示 请 见 图 7.5. 


时 刻 0 时 刻 "一 1 时 刻 mw 


C-K 方程 的 推导 示意 图 . n 时 刻 达到 状态 7 的 概率 等 于 以 不 同 路 径 到 达 7 的 概率 
rig(n 一 1)px; 的 总 和 


我 们 把 rij(n) 看 成 一 个 二 维和 矩阵 第 i 行 第 7 列 的 元 素 , 组 成 的 矩阵 称 为 m 步 转 
移 概 率 和 矩阵 . 图 7.6 和 图 7.7 分 别 表示 例 7.1 和 例 7.2 中 的 n 步 转移 概率 rij(n). 


在 这 两 个 例子 中 , 发 现 了 许多 rij(n) 很 有 趣 的 极限 性 质 . 在 图 7.6 中 , 我 们 发 现 当 
n 一 00 时 , 每 一 个 rij(n) 都 收敛 于 一 个 极限 值 , 这 个 极限 值 不 依赖 于 初始 状态 i. 因 
此 , 当时 间 不 断 增 大 时 每 个 状态 都 有 一 个 正 的 “ 稳 态 ”概率 . 进一步 地 , 概率 rij(n) 
在 很 小 时 , 依赖 于 初始 状态 i, 但 是 随 着 时 间 的 增 大 , 这 种 依赖 性 将 会 逐渐 消失 . 
很 多 (但 不 是 全 部 ) 随时 间 变 化 的 概率 模型 都 具有 这 样 的 性 质 : 在 充分 长 的 时 间 后 ， 
初始 条 件 的 影响 可 以 被 忽略 . 
在 图 7.7 中 , 我 们 发 现 了 在 数值 上 的 不 同 极限 行为 : rij(n) 依旧 收敛 , 但 是 极限 
值 依赖 于 初始 状态 , 而 且 对 于 某 特 定 的 状态 极限 值 可 能 为 0. 这 里 , 我 们 有 两 个 状 
态 是 “吸收 ”状态 , 也 就 是 说 一 旦 到 达 了 这 个 状态 , 将 永远 处 于 这 个 状态 . 具体 地 说 


状态 1 和 状态 4 是 “吸收 状态 ”, 与 实际 问题 相对 应 的 意思 是 苍蝇 被 两 只 蜘蛛 之 一 
捕 提 . 只 要 给 足 时 间 , 苍蝇 一 定 会 到 达 吸 收 状态 , 即 苍蝇 被 蜘蛛 捕捉 . 因此 , 处 于 非 


@ 对 矩阵 乘法 运算 熟悉 的 读者 ，C-K 方程 可 以 如 下 表述 : rij(n) 组 成 的 n 步 转移 概率 矩阵 ， 等 于 由 
7ij(n 一 1) 组 成 的 另 一 工 步 转移 概率 矩阵 乘 以 一 步 转移 概率 矩阵 . 所 以 n 步 转移 概率 矩阵 是 转移 概率 
和 矩阵 的 n 次 方 . 
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吸收 状态 2 和 状态 3 的 概率 随时 间 的 增长 将 减 小 为 0. 最 后 , 究竟 达到 哪个 吸收 状 
态 , 其 概率 的 大 小 取决 于 初始 位 置 的 远近 . 


ri(n) 


1.72 | 028 | [0.744 [0256| 7ass.251 bb.7498b.2502 
0 2) Ti(3) ri(4) ra(5) 
n 步 转移 概率 和 矩阵 的 序列 
图 7.6 例 7.1 的 m 步 转移 概率 . 观察 到 随时 间 m” 的 增加 ,rij(n) 收敛 于 不 依赖 于 初始 状态 
的 极限 值 

FL 全 

0 

nn( 

ra(n) 


ne 


1 2 3 4 
1FEaororo 回 TaToTD 
sololya 
a oo b/s 


2 员 042023024D09 
3[ 0 lss podoadabea 
ra(1) ri(2) 713) 

4 步 转移 概率 矩 阵 的 序列 

图 7.7 ”图 的 上 部 表示 “ 蜂 蛛 和 苍蝇 ”的 例 7.2 中 , n 步 转移 概率 rii(n) 随 n 变化 的 状况 . 我 
们 观察 到 这 些 概 率 收敛 于 一 个 极限 值 , 但 是 极限 值 依赖 于 初始 状态 i. 图 的 下 部 展示 

n 步 转移 概率 矩阵 随 n 的 变化 状况 , 注意 , 处 于 非 吸 收 态 2 或 状态 3 的 概率 riz(m) 

和 risa(n), 随 n 的 增 大 , 其 概率 值 趋 近 于 0 


这 些 例子 说 明了 马尔 可 夫 链 状态 类 型 以 及 渐 近 性 质 的 多 样 性 .这 激发 了 我 们 
对 马尔 可 夫 链 进行 分 类 和 分 析 的 兴趣 , 这 将 是 接 下 来 三 三 的 主题 . 


basoabsloal 
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7.2 ”状态 的 分 类 
在 7.1 节 , 从 我 们 列举 的 例子 中 可 以 看 到 马尔 可 夫 链 的 不 同 状态 在 数值 上 具有 
不 同 的 性 质 . 特别 地 , 一 些 状 态 被 访问 一 次 后 , 一 定 还 会 被 继续 访问 , 而 对 于 另外 一 


些 状态 却 不 是 这 样 的 . 本 节 将 重点 讨论 这 种 情况 的 原理 . 特别 地 , 我 们 希望 给 出 马 


尔 可 夫 链 的 


EE | 


i 
出 发 可 到 达 2” 表示 这 种 意 ) 


“从 i 


始 了 


;Ln—1,7， 


) (in_2,) Yi (in— 


出 一 些 严格 的 定义 . 称 状态 
个 n,n 步 转移 概率 rij(n) 是 正 的 , 也 就 是 说 ,从 状态 i 出 
; pe 以 一 个 正 概率 可 以 到 达 状 态 j. 


能 的 状态 序列 到 和 状态 


i 结束 于 状态 
,7]) 都 具有 正 概率 . 今后 , 我 们 采用 直观 的 语言 


7 为 从 状态 1 


状态 分 类 , 并 重点 分 析 它 们 被 访问 的 长 期 频率 . 
第 一 步 , 我 们 将 状态 的 可 访问 性 给 
达 的 , 如 果 对 于 某 一 


男 一 个 等 价 的 定义 是 存在 可 


j,， 并 且 其 中 每 步 转移 


四 . 令 4(i) 是 所 有 从 状态 i 可 达 的 状态 集合 . 我 


们 定义 状态 i 是 常 返 的 , 如 果 对 于 每 个 从 i 出 发 可 达 的 状态 j, 相应 地 从 了 出 发 也 


可 达 i 


pa 
信 一 


所 以 ， 


昌 附 


;也 就 是 说 , 对 于 


当 我 们 
只 要 给 足 时 间 , 这 总 是 能 发 生 的 . 重复 该 
定 能 被 回访 无 限 次 ( 参 
如 果 


注意 ， ee 


始 了 
于 i 是 常 返 的 , 从 未 来 任何 一 个 


所 有 属于 A(i) 的 状态 j, 状态 i 
个 常 返 状 态 i RO 


状态 ， :NAE 中 


访问 状态 


E 导 可 知 , 如 果 一 


也 属于 4(7). 
A(2), 其 中 是 从 了 可 
定 概 率 可 以 回 到 状态 i 的 . 
个 津 返 态 被 访问 一 次 , 那 


总 是 有 


见 本 章 末 关于 


这 玄 


i 是 非常 返 的 . 当 状态 
发 生 , 1 


E 导 严格 证 
一 个 状态 不 是 常 返 的 ,我 们 称 之 为 非常 返 的 ， 所 以 , 如 果 存 在 一 个 状态 
jE A(i), 使 得 i 4 A(7), 那么 状态 
率 可 以 到 达 状 态 7. 只 要 给 足 时 间 ， 这 将 会 


明 的 习题 ). 


i 每 次 访问 后 , 将 以 正 概 
那 之 后 , 状态 i 将 不 再 会 被 回访 . 


非常 返 的 状态 


x 


只 能 被 回访 有 限 次 , 参见 本 章 末 的 习题 
或 常 返 能 由 转移 概率 图 的 弧 线 所 决定 [这 些 状 态 转移 对 


pij 的 具体 数值 


-了 状态 的 特性 常 返 J 


图 7.8 ”转移 概率 图 


如 果 i 是 常 返 态 
类 ), 这 


决 


人 . 


图 7.8 列举 了 一 个 转移 概率 图 , 并 


常 返 非常 返 


是 常 返 态 . 状态 1、 


Pp 表示 状态 的 分 类 示意 图 . 对 于 
3、4 是 可 从 2 可 达 的 ， 
是 非常 返 状态 . 状态 3、4 是 相互 可 达 的 , 所 以 它们 都 是 常 返 


,那么 从 i 可 达 的 状态 集合 4(i) 组 
意味 着 4() 中 所 有 的 状态 都 是 相互 可 达 的 ,A() 


态 可 达 的 . 用 数学 形式 来 表述 就 是 , 对 于 


常 返 


个 闸 返 态 


状态 1, 唯一 可 达 的 状态 就 是 它 本 身 , 所 
旧 是 2 却 不 能 从 它们 可 达 , 所 
的 


成 一 个 常 返 类 (或 简称 为 
2 是 从 这 些 状 
i 对 任意 的 了 属于 4(2), 我 们 
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有 4(i) = A(7), 这 个 结论 由 常 返 的 定义 可 得 . 0 在 图 7.8 中 , 状态 3 和 状态 4 
形成 一 个 常 返 类 ， 自身 形成 一 个 常 返 


可 以 看 到 ,从 任何 一 个 非常 返 状态 


出 发 ， 和 


这 是 一 个 直观 的 事实 ， 
至 少 存在 一 个 常 返 状 态 , 从 而 也 就 


论 . 


证 明 将 留 作 本 章 末 的 习题 . 由 此 可 以 知道 , 一 个 马尔 可 夫 链 


至 少 存在 一 个 常 返 类 . 所 以 我 们 可 以 得 到 以 下 结 


马尔 可 夫 链 的 分 解 
一 个 马尔 可 夫 链 的 状态 集合 可 以 分 解 成 一 个 或 多 个 常 返 类 , 加 上 可 能 的 一 


些 非 常 返 状态 . 


常 返 状态 出 发 是 不 可 达 的 . 


。 从 任何 一 个 常 返 状态 出 发 都 不 可 
。 从 一 个 非常 返 状态 出 发 , 至 少 有 一 个 (可 能 有 更 多 个 ) 常 返 态 是 可 达 的 . 


一 个 常 返 态 从 它 所 属 的 类 里 任何 


一 个 状态 出 发 是 可 达 的 , 但 从 其 他 类 里 的 


到 达 非 常 返 状态 . 


了 一 和 


图 7.9 提供 了 一 些 马尔 可 夫 链 分 解 上 


到 如 下 现象 . 


的 例子 . 状态 的 分 解 为 研究 马尔 可 夫 链 提供 


Fh 强 有 力 的 方法 , 同时 对 状态 转移 也 提供 了 直观 的 解释 . 特别 地 , 我 们 可 以 看 


(a) 一 旦 一 个 状态 进入 (或 开始 于 ) 


个 常 返 类 , 它 将 停留 在 这 个 类 里 . 因为 在 


这 个 类 里 的 所 有 状态 都 是 相互 可 达 的 , 类 里 所 有 状态 将 被 无 限 次 的 回访 . 


(b) 包 


上 果 初 始 状态 是 非常 返 的 , 那么 状态 转移 的 路 径 开 始 部 分 包含 非常 返 状态 ， 


最 后 部 分 一 定 是 由 来 自 同 一 个 类 的 常 返 状态 组 成 的 . 


为 了 


ra 


0 分 析 如 何 从 一 个 给 


类 的 机 理 也 是 很 重要 的 . 这 两 个 问题 ， 


7.4 a 


周期 


特别 地 , 称 一 


常 返 类 还 有 一 个 重要 的 性 质 , 即 一 个 状态 被 回访 时 间 出 现 或 者 不 出 现 周期 性 . 
个 常 返 类 是 有 周期 的 , 如 果 它 的 状态 能 被 分 成 4 > 1 个 相互 不 相交 的 


E 解 马尔 可 夫 链 长 期 的 行为 ， 分 析 单个 常 返 类 组 成 的 链 是 很 重要 的 . 为 


定 的 非常 返 状 态 出 发 , 进入 一 个 特定 的 党 
长 期 行为 和 短期 行为 , 将 分 别 是 7.3 节 和 


子 集 51,.… , Sa, 且 满 足 所 有 的 转移 都 是 从 一 个 这 样 的 子 集 到 下 一 个 , 参见 图 7.10. 


更 加 精确 地 说 , 就 是 


如 


如 果 1E€E Si 有 HH pi; > 0, 那么 | 


JE Shi 当 k=1,.…,d-1, 
7 E 91， 当 k=d. 


一 个 常 返 类 不 具有 周期 , 我 们 称 之 为 非 周期 的 . 


7.2 状态 的 分 类 299 


ee e 。 


单个 常 返 类 


< 全 


一 个 非常 返 状 态 (3) 和 一 个 常 返 类 (1 和 2?) 


两 个 非常 返 状态 (2 和 3) 和 两 个 常 返 类 
(1 是 一 个 常 返 类 , 4 和 5 组 成 男 一 个 常 返 类 ) 


图 7.9 一 些 马尔 可 夫 链 的 状态 分 解 为 常 返 类 和 非常 返 状态 的 例子 示意 图 


图 7.10 有 周期 的 常 返 类 的 结构 . 本 图 中 , 周期 4=3 


所 以 , 在 一 个 有 周期 的 常 返 类 中 , 我 们 从 某 个 子 集 的 一 个 状态 出 发 , 依次 通过 
每 一 个 子 集 , 经 过 d 步 后 , 又 回 到 了 原来 的 子 集 . 举例 说 明 , 图 7.9 中 的 第 二 个 链 ， 
常 返 类 (状态 1 和 状态 2) 是 有 周期 的 , 由 状态 1 出 发 , 经 过 状态 2, 又 回 到 状态 1. 
同样 地 , 图 7.9 中 的 第 三 个 链 , 由 状态 4 和 状态 5 组 成 的 常 返 类 也 是 有 周期 的 . 此 
外 , 该 图 中 所 有 其 他 的 常 返 类 都 是 非 周 期 的 . 

注意 , 给 定 一 个 有 周期 的 常 返 类 , 对 于 链 中 任意 一 个 正 时 刻 n, 以 及 类 中 的 状 
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态 i 则 必 存 在 一 个 或 多 个 状态 j, 使 得 rij(n) = 0. 其 原因 是 从 状态 i 出发, 时 刻 n 
只 可 能 到 达 其 中 一 个 集合 Si%， 所 以 , 要 证 明 一 个 给 定 的 常 返 类 R 是 非 周 期 的 , 只 


需 验 证 


J] 以 到 达 R 中 所 有 的 


个 常 返 


链 中 唯一 的 

相反 的 陈述 
么 必 存 在 时 刻 
的 习题 


返 类 是 非 周 期 的 . 


区 


导 对 于 人 


n, 使 


可 
7.9 中 的 第 一 个 链 . 从 状态 1 开始 , 每 一 个 状态 都 可 能 


E 何 属于 R 的 任意 


是 否 存在 一 个 特定 的 时 刻 ”> 1 和 特定 的 状态 
状态 , 也 就 是 说 , 对 于 所 有 的 7 


i E R, 使 得 经 过 n 
RR 有 rij(n) > 0. 举例 说 图 
在 时 刻 mn = 3 时 到 达 , 所 以 该 


步 以 后 ， 


也 是 正确 的 (在 此 不 给 予 证 明 ): 如 果 一 个 常 返 类 R 是 非 周 期 的 , 那 
i 和 j, 均 有 rij(n) > 0, 参见 本 章 末 


周期 


考虑 一 个 常 返 类 已 . 


周期 类 . 


Ti (n) > 0. 


。 类 RR 称 为 非 周期 的 , 当 且 仅 当 存 在 时 刻 n, 使 得 对 3 


。 如果 一 个 类 中 的 状态 能 被 分 成 d > 1 个 互 不 相交 的 子 集 51,:… 
所 有 的 转移 都 是 从 子 集 Sk 到 S41 的 (或 到 51, 当天 = d 时 ), 则 称 该 类 为 


FF 任何 i,j € R, 满足 


, Sa, 满足 


7.3 


在 马尔 可 夫 链 模型 中 , 我 们 常常 
时 刻 n 
到 一 个 固定 的 值 ， 


度 上 是 典型 的 性 质 . 
如 果 有 两 个 或 者 更 多 个 常 返 状 态 


状态 (未 来 访问 7 的 概率 依赖 于 状态 
门将 链 限定 于 只 有 一 个 常 返 类 , 加 上 一 


稳 态 性 质 


感 兴趣 的 是 它 长 期 的 状态 性 质 ， 
非常 大 时 , n 步 转移 概率 7ij(n) 的 渐 近 行为 . 我 们 在 


类 , 很 显然 , rij(n 的 极限 人 
处 于 相同 的 类 ). 所 以 , 我 


是否 和 初始 状态 


也 就 是 说 ， 当 


图 7.6 看 到 ri;(n) 收敛 
并 独立 于 初始 状态 的 选取 . 我 们 希望 了 解 这 种 


改 敛 性 质 在 多 大 程 


定 依赖 于 初始 


些 可 能 存在 的 非常 # 返 状态 对 于 单个 常 返 类 


的 情况 研究 清楚 
旦 状态 进入 一 个 特定 的 常 返 类 ， 它 将 


以 后 , 多 个 常 返 类 的 情 


的 渐 近 行为 去 理解 具有 多 个 常 返 
就 算是 一 个 只 有 单个 常 返 
门 假设 一 个 常 返 类 


状态 2 也 只 


类 的 马 


况 也 就 变 得 简单 明白 
直 处 于 这 个 类 中 . 所 以 , 可 以 利用 
KK 可 夫 链 的 渐 近 行为 . 
类 的 链 , rij(n) 也 可 能 是 
具有 两 个 状态 , 状态 1 和 状态 2, 满足 状态 1 
能 到 达 状 态 1(p12 = p21 = 1). 那么 , 从 某 一 个 状态 开 


ds 


不 收敛 的 . 为 了 验证 


. 因 


只 能 


为 我 们 知道 ， 


类 链 


这 点 , 我 
| 达 状 态 2, 而 
始 , 任意 偶数 次 转 
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移 后 将 回 到 原来 的 状态 , 任意 奇数 次 转移 之 后 达到 对 方 的 状态 . 也 就 是 ， 


是 1, n 是 偶数 ， 
1 0， 凡是 奇数 ， 


这 种 现象 说 明 该 常 返 态 是 周期 的 , 并 且 ri;(n) 是 摆动 的 . 

排除 我 们 前 面 讨论 的 两 种 情况 (多 个 常 返 类 和 有 周期 的 类 ) 外 , 现在 我 们 可 以 
断言 , 对 于 每 一 个 状态 j, 处 于 状态 j 的 概率 rij(n) 趋 近 于 一 个 独立 于 初始 状态 i 
的 极限 值 , 这 个 极限 值 记 为 mm, 有 如 下 表示 : 


Tj 守 P(Xn 二 四 当 n 很 大 时 ， 


并 且 称 之 为 状态 j 的 稳 态 概率 . 接 下 来 是 一 个 重要 定理 . 它 的 证 明 很 复杂 , 将 结合 
本 章 末 问题 的 几 个 其 他 证 明 列 出 . 


稳 态 收敛 定理 

考虑 一 个 非 周期 的 、 单 个 常 返 类 的 马尔 可 夫 链 . 那么 , 状态 7 和 它 对 应 的 稳 
态 概 率 x; 具有 如 下 性 质 . 

(a) 对 于 每 个 j, 我 们 有 : 


im Tij (n) Mj, 对 于 所 有 的 4. 
(b) i; 是 下 面 方程 组 的 唯一 解 


(c) 另外 有 : 


nj; = 0， 对 于 所 有 的 非常 返 状态 j 
rj; > 0， 对 于 所 有 的 常 返 态 耻 


稳 态 概率 zj 的 总 和 为 1, 在 状态 空间 中 形成 了 概率 分 布 , 通常 称 之 为 链 的 平稳 
分 布 (stationary distribution). 称 之 为 平稳 的 原因 是 , 如 果 初 始 状态 是 根据 该 分 布 
选择 的 , 也 就 是 说 , 如 果 


P(X0=)D) = j=1,.… 


mm 


》 ? 
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那么 , 利用 全 概率 公式 , 我 们 有 


P(X1=)) = >》P(Xo = 人 pi =》 Thpi 一 TD 
k=1 k=1 


其 中 上 式 最 后 一 个 等 号 利用 的 是 稳 态 收敛 定理 的 第 (b) 部 分 . 类 似 地 , 对 于 所 有 的 
n 和 j 均 有 P(X = 让 = 所 以 , 如 果 初 始 状态 根据 平稳 分 布 i 
何 时 候 的 状态 都 具有 相同 的 分 布 . 

方程 组 


7 一》 TRDR j=1,.… ,m, 


称 之 为 平衡 方程 组 . 它们 是 上 述 定理 第 (a) 部 分 和 查 普 曼 - 科 尔 莫 戈 罗 夫 方程 组 的 
简单 结合 的 结果 . 实际 上 , 一 旦 rij(n) 收敛 于 菜 一 个 xj, 那么 我 们 考虑 方程 组 


rym) = 2 rin(n — pks, 


两 边 对 n 一 ce 取 极 限 , 得 到 平衡 方程 组 "又 结合 归 一 化 方程 


SE 
局 
| 


k=1 


平衡 方程 组 能 够 解 出 xj. 下 面 举 一 些 例子 来 说 明 如 何 求解 . 
例 7.5 考虑 两 个 状态 的 马尔 可 夫 链 , 它们 的 转移 概率 是 


Rl 0.8, Vig 二 0.2, 


21 :一 0.6， p22 一 0.4. 


(这 和 例 7.1 和 图 7.1 介绍 的 链 是 相同 的 .) 平衡 方程 组 为 


M1 三 T1D11 十 T2D21， T2 = T1D12 十 T2p22, 


即 
T1 一 0.8.71 十 0.6.72， To2 一 0.2.71 十 0.4.7r2. 


注意 到 上 面 的 两 个 方程 是 相互 依赖 的 , 因为 它们 都 等 价 于 


I 


T1 一 37r2 . 


运用 线性 代数 中 一 个 重要 的 著名 定理 ( 称 为 佩 龙 - 弗 洛 比 尼斯 定理 )， 可 以 证 明 任意 马尔 可 夫 链 
的 平衡 方程 组 总 有 非 负 解 . 一 个 非 周 期 的 只 有 单个 常 返 类 的 马尔 可 夫 链 , 综合 归 一 化 方程 , 平衡 方 
程 组 的 解 是 唯一 的 , 也 就 是 n 步 转移 概率 rij (mn) 的 极限 . 
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个 


只 这 
并 


a 


般 乡 


f 论 , 实际 上 可 以 订 
:出 来 . 然而 , 我 们 知道 


已 下 


这 个 结果 和 我 们 前 面 通过 迭代 查 普 曼 - 科 尔 催 蕊 罗 夫 方 程 组 得 到 的 结果 一 致 ( 见 图 


7.6). 
例 7.6 


再 将 它 代 入 ma 十 Ta = 1, 得 


到 


E 明 平衡 方程 组 
Tj 满足 归 一 化 方程 


T1l 十 Tr2 一 |， 


HT2 二 1, 从 而 
Ta = 0.25, 
Tl1 = 0.75. 


一 位 健忘 的 教授 有 两 


日 在 她 所 处 位 置 有 一 把 


带 雨 伞 . 假设 每 次 她 出 门下 十 


湿 的 稳 态 概率 是 什么 ? 


我 们 利 


图 7.11 表示 对 应 的 转移 概率 图 , 相应 


状态 i : 


门口 没有 
图 


@ 矩阵 中 第 一 行 表示 她 出 门 时 门 
第 二 行 表示 她 出 门 


了 ， 引 


月 金 可 


1—p» 
企 


7.11 


的 概率 是 p, 日 


门口 有 两 把 金 
例 7.6 中 的 转移 概 


没有 伞 , 她 到 达 目 


用 马尔 可 夫 链 建立 模型 , 假设 以 下 状态 : 


在 她 所 在 地 有 i 把 雨伞 可 用 ， 
的 转移 概率 矩阵 为 ” 


的 地 的 门 


率 图 


i = 0,1,2. 


门口 有 一 把 金 


必定 有 


两 把 金 , 因此 由 poo = 0, po 


时 门 


只 有 一 把 伞 , 她 以 概率 p 将 这 把 金 带 走 , 以 概率 为 (1 一 p) 


在 原 地 , 这 样 


的 地 门 


的 人 金 的 把 数 


的 ; 


区 成 一 个 马尔 可 


大 态 为 1 或 2, 相 
| 夫 链 . 一 一 译 者 注 


内 的 任何 方程 都 可 以 利用 剩 下 的 式 


“ 衡 方程 组 的 一 个 补充 , 从 而 能 唯一 地 得 到 xj. 实际 上 , 将 方程 mm = 372 代入 
方程 T1 十 7T2 一 1 可 以 得 到 372 国 | 


把 雨伞 , 用 于 上 下 班 往返 于 家 和 学 校 之 间 . 如 果 下 雨 
用 , 那么 她 就 会 带 上 和 它 . 如 果 没 有 下 两 , 妇 
[独立 于 其 他 时 候 . 请 问 她 在 路 上 被 淋 


总 是 未 记 


Ey 


+ 


应 的 转移 概率 如 矩阵 的 第 二 行 所 示 . 总 之 , 她 所 在 地 
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这 个 马尔 可 夫 链 具有 单个 常 返 类 , 且 是 非 周期 的 (假设 0 < p < 1), 所 以 可 以 
利用 稳 态 收敛 定理 . 其 平衡 方程 组 是 


To= (1 —p)n2, Ti = (1 — pn 十 DTr2，To2 一 To 十 DT1. 


由 第 二 个 方程 , 我 们 知道 ri = rz, 再 结合 第 一 个 方程 ro = (1 -mr 和 归 一 化 方程 
T0 十 Trl 十 Ta 三 |， 得 到 

1 一 p 1 1 
和 
根据 稳 态 收敛 定理 , 教授 发 现 自己 所 在 地 方 没有 雨 侈 的 稳 态 概率 是 ro， 那么 教授 
将 被 淋 湿 的 概率 是 ro 乘 上 下 雨 的 概率 7 
例 7.7 一 个 迷信 的 教授 在 一 个 具有 m 扇 门 的 环形 建筑 里 面 工 作 , m 是 奇数 . 他 
绝 不 连续 两 次 打开 同一 扇 门 . 相反 , 他 以 概率 p( 或 概率 1 一 p) 以 顺 时 针 方 向 (或 相 
应 地 以 逆 时 针 方 向 ) 打开 他 上 一 次 打开 的 相 邻 门 . 请 问 选 定 一 扇 门 将 在 未 来 一 天 被 
用 到 的 概率 ? 


TO 


图 7.12 例 7.7 中 的 转移 概率 图 , m = 5 对 应 的 情况 示意 图 . 假设 0 < p < 1, 不 难 发 现 , 选 
定 一 个 初始 状态 i, 每 一 个 状态 7 都 可 以 在 5 步 能 达到 , 所 以 该 链 是 非 周 期 的 


我 们 利用 马尔 可 夫 模 型 , 有 以 下 mm 个 状态 : 
状态 i : 教授 打开 的 是 第 i 遍 门 ，i = 1,… ,m. 
转移 概率 图 如 图 7.12 所 示 (图 中 mm = 5). 转移 概率 矩阵 为 


0 也 0 0 0 1—p 
1—p 0 p 0 0 0 
0 1—p 0 7 0 0 
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假设 0 < p < 1 该 链 有 非 周 期 的 单个 常 返 类 (验证 非 周期 性 , 我 们 选 定 一 个 初 
始 状态 i, 每 一 个 状态 7 都 可 以 在 确定 的 m 步 能 到 达 , 于 是 上 节 末 提出 的 非 周期 性 
判定 规则 能 满足 ). 平衡 方程 组 为 


MT1= (1 — Pp)n2 + prm, 


Ti 一 DT 1 十 (1 一 DAT1， 1=2,...…,m—1, 


Tm 一 (1 D)T1 十 DTmm 一 1 


注意 , 由 其 对 称 性 , 这 个 方程 组 很 好 解 , 所 有 的 门 都 具有 一 样 的 稳 态 概率 . 所 以 解 为 


) 了 三 1,2,.… ,770. 


确实 , 我 可 以 看 到 m 是 满足 平衡 方程 组 和 归 一 化 方程 的 , 所 以 它们 一 定 就 是 我 们 
所 求 的 稳 态 概率 (利用 稳 态 收敛 定理 的 唯一 性 ). 

注意 , 如 果 p = 0 或 者 p = 1, 链 也 只 有 单个 常 返 类 , 但 是 是 有 周期 的 . 在 这 种 
情况 下 , n 步 转移 概率 rij(n) 不 会 收敛 于 某 一 个 极限 值 , 因为 门将 会 被 按照 环形 顺 
序 使 用 . 类 似 地 , 如 果 m 是 偶数 , 链 的 常 返 类 也 是 有 周期 的 , 因为 状态 将 可 以 分 成 
两 个 子 集 , 偶数 和 奇数 号 码 的 状态 , 并 且 满 足 从 一 个 子 集 只 能 到 达 下 一 个 子 外 


7.3.1 ”长 期 频率 解释 


概率 通常 被 解释 为 无 限 次 独立 重复 试验 的 事件 发 生 的 对 应 频率 . 尽管 缺乏 独立 
重复 试验 的 那 种 独立 性 , 马尔 可 夫 链 的 稳 态 概 率 也 具有 这 样 类 似 的 解释 

例如 , 考虑 一 个 与 机 器 相关 的 马尔 可 夫 链 . 每 天 工作 结束 的 时 候 , 机 器 有 两 种 
状态 , 正常 工作 或 出 现 故 障 . 每 次 出 现 故 障 时 , 就 立即 花 1 美元 维修 .我们 应 该 如 
何 建立 模型 , 计算 长 期 的 每 天 平均 修理 费 ? 一 种 可 能 是 将 它 看 成 未 来 任意 一 天 的 修 
理 费 的 均值 , 这 就 需要 计算 故障 状态 的 稳 态 概率 . 另 一 种 方法 是 : 首先 可 以 计算 n 
天 内 的 总 期 望花 费 . 当 nn 很 大 时 , 再 除 以 n。 直觉 告诉 我 们 , 两 种 计算 方法 将 会 得 
到 一 样 的 结果 , 这 样 的 直觉 是 有 理论 根据 的 .下面 是 关于 稳 态 概率 的 解释 (证 明 将 
在 本 章 末 的 习题 中 给 出 ) 


稳 态 概率 的 期 望 频率 解释 
对 于 一 个 非 周期 的 具有 单个 常 返 类 的 马尔 可 夫 链 , 状态 的 稳 态 概率 ri 满足 


其 中 wij(n) 表示 从 状态 i 出 发 , 在 n 次 转移 中 到 达 状 态 j 的 总 次 数 的 期 望 值 . 
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基于 上 述 解释 , x; 表示 状态 是 7 的 长 期 的 期 望 频率 . 每 次 状态 7 被 访问 了 , 则 


下 一 步 将 转移 到 状态 的 概率 是 zi: 所 以 , 我 们 得 到 绪论 ztjpjx 
移 到 大 的 长 期 转移 概率 .” 


可 以 看 作 从 了 转 


特定 转移 的 期 望 频率 

考虑 一 个 马尔 可 夫 链 的 n 次 转移 , 该 链 是 从 给 定 初始 状态 出 
且 具 有 单个 常 返 类 . 令 wjik(n) 为 在 时 间 n 内 , 从 状态 j 到 状态 
数 , 那么 , 无 论 初始 状态 是 什么 , 均 有 


发 的 、 非 周期 的 ， 
k 的 转移 期 望 次 


给 出 rz 和 Ajpyx 的 频率 解释 以 后 , 平衡 方程 组 


mm 
二 > TEDEI 
k=1 


就 具有 直观 的 意义 . 访问 了 的 期 望 频率 x; 等 于 能 到 达 7 的 转移 
的 总 和 , 参见 图 7.13. 


Tmp my 


图 7.13 ”在 频率 意义 下 对 平衡 方程 组 的 解释 . 在 次 数 很 大 的 转移 中 , 我 


样 的 转移 的 期 望 频 率 总 和 就 是 访问 7 的 期 望 频 率 ty 


的 期 望 频率 TEDEY 


门 认为 rkpkjy 表示 状 


态 从 有 到 7 的 期 望 频率 ( 它 也 可 以 应 用 于 7 到 本 身 的 转移 , 对 应 频率 为 xjpj;). 这 


@ 事实 上 , 下 面 更 强 的 结论 也 是 成 立 的 . 对 马尔 可 夫 链 进行 一 个 概率 试验 , 产 委 


正好 是 xjpjp. 尽管 轨道 是 随机 的 , 这 些 等 式 仍然 概率 1 地 成 立 . 


一 个 马尔 可 夫 链 的 无 限 


长 的 轨道 , 观测 这 个 轨道 的 到 达 状 态 7 的 长 期 频率 就 是 zj, 发 生 从 状态 7 转移 到 状态 有 的 长 期 频率 
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7.3.2” 生 灭 过 程 

一 个 生 灭 过 程 也 是 马尔 可 夫 链 . 它 的 状态 是 线性 排列 的 , 具体 地 说 , 生 灭 过 程 

的 状态 空间 为 {0,1,… ,m)}, 且 转 移 只 发 生 在 相 邻 状态 之 间 , 或 者 状态 保持 不 变 . 实 

际 背景 的 例子 非常 多 , 尤其 是 排队 论 . 图 7.14 表示 了 一 个 生 灭 过 程 的 一 般 结 构 , 也 
介绍 了 转移 概率 的 一 般 情 况 . 特别 地 ， 

b; 二 P(Xn41 ==i 十 1|Xn = 人 (在 状态 i“ 生 ”的 概率 )， 


di 二 P(Xnti 二 i 一 1|Xn = 让， (在 状态 i“ 灭 ” 的 概率 ). 


1— oo lob — bn_1— dn_1 


| bo ) : 0 人 让 
dl 全 Wi 
图 7.14 生 灭 过 程 的 转移 概率 图 


对 于 一 个 生 灭 过 程 , 平衡 方程 组 能 够 充分 地 化 简 . 我 们 重点 考察 相 邻 状态 ;和 
i 十 1. 在 马尔 可 夫 链 的 任何 轨迹 中 , 从 i 到 ;+1 的 转移 一 定 会 跟着 一 个 从 ?十 1 到 
i 的 转移 (虽然 不 总 是 从 i 十 1 马上 转 到 ,后面 这 个 转移 会 在 男 一 个 i 到 i 十 1 的 
转移 发 生 之 前 . 换言之 , 在 马尔 可 夫 链 的 任何 轨迹 中 , 由 i 到 i+1 的 转移 和 由 i 十 1 
到 i 的 转移 一 定 是 交 蔡 出 现 的 . 所 以 , 从 ; 到 ;+1 的 转移 的 期 望 频率 xib;, 一 定 等 
于 从 ;+1 到 ;的 转移 的 期 望 频率 xiy1di41. 这 就 推出 了 一 个 局 部 平衡 方程 组 ” 


Mibi = Nitidit1l, 1=0,1,.…,m—1. 
利用 这 个 局 部 平衡 方程 组 , 可 以 得 到 
i bob1*: bi— 1 让 二 | jy 
2 0 did2 .. ) ) ) 


由 此 , 再 利用 归 一 化 方程 ;zi; = 1, 稳 态 概率 mi 就 容易 算出 了 . 
例 7.8 (具有 反射 壁 的 随机 游 动 ) ”一 个 人 在 直线 上 行走 , 每 一 个 时 刻 , 他 向 右 走 的 
概率 是 5b, 癌 左 走 的 概率 是 1 一 b. 该 人 开始 于 位 置 1,2,… ,mm 中 的 任 一 个 , 但 是 如 
果 他 到 达 位 置 0( 或 者 m +1), 他 将 自动 返回 到 位 置 1( 或 者 位 置 m). 这 等 价 于 , 我 
们 假设 当 他 到 达 位 置 1( 或 者 m) 的 时 候 , 下 一 步 将 以 概率 1 -6( 或 者 0) 停留 在 原 
Q@ 不 运用 频率 解释 法 , 也 可 以 如 下 正式 推导 . 状态 0 的 平衡 方程 是 ro(1 一 80) 十 m1d1 = ro, 所 以 可 以 
推导 出 第 一 个 局 部 平衡 方程 : robpo = zid1. 状态 1 的 平衡 方程 是 robo 十 m1 (1 一 01 一 di1) 十 m2d2 一 T1. 
运用 前 一 个 状态 的 局 部 平衡 方程 robo = zid1, 可 得 ridi 十 m1(1 一 b1 一 Q1) 十 x2d2 = rl1. 化 简 可 得 
71b1 = xr2d2. 继续 推导 下 去 , 就 可 以 得 到 所 有 状态 的 局 部 平衡 方程 组 . 
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处 , 以 概率 b 向 右 走 一 步 (或 以 概率 1 -5 向 左 走 一 步 ). 我 们 利用 马尔 可 夫 链 建立 
模型 , 其 状态 为 1,2,… ,m. 转移 概率 图 如 图 7.15 所 示 . 


到 98 
b 


开演 沁 1—b 一 1—b 


所 以 , mi+l = pi, 其 中 


于 是 我 们 用 ma 表示 所 有 的 zi, 有 


i—l ， 
人 


再 利用 归 一 化 方程 1 = ri 十 … 二 rm, 我 们 得 到 


1=m(l+p+ +p™ ), 


一半 


7 三 i=1,.…,m. 


1 十 D 十 .十 pm 一 1 


注意 , 如 果 p = 1( 向 左 和 向 右 的 概率 一 样 ), 那么 对 于 所 有 i 有 zi = 1/m. 
例 7.9 (排队 论 ) ”在 通信 和 网络 中 , 信号 包 到 来 后 , 被 存放 在 缓冲 器 中 然后 传输 . 绥 
冲 器 的 储存 容量 是 m: 如 果 已 经 有 m 个 信号 包 存 在 缓冲 器 中 , 那么 新 到 的 信号 就 
自动 丢失 了 . 我 们 将 时 间 切 分 成 很 小 的 部 分 , 并 且 假 设 每 个 时 间 段 , 最 多 有 一 个 事 
件 发 生 (一 个 新 的 信号 包 的 到 达 或 将 已 经 存在 一 个 信号 包 传送 出 去 ), 改变 系统 中 
信号 的 数量 . 特别 地 , 我 们 假设 每 个 时 间 段 , 只 有 以 下 事件 之 一 发 生 . 

(a) 一 个 新 的 信号 包 的 到 达 , 发 生 概 率 是 b > 0;” 

(b) 如 果 至 少 存在 一 个 信号 包 在 系统 中 , 则 传送 出 去 一 个 信号 包 , 发 生 的 概率 
是 d > 0, 否则 概率 为 0; 


@ 如 果 缓 冲 器 中 信号 包 的 个 数 为 m, 则 事件 发 生 的 概率 为 0. 一 一 译 者 注 


7.3 稳 态 性 质 309 


(c) 没有 新 信号 到 达 , 也 没有 将 已 经 存在 的 信号 包 传送 出 去 . 如 果 当 时 在 缓冲 
器 中 信号 包 的 个 数 为 m, 则 事件 发 生 的 概率 为 1 - d; 如 果 当 时 在 缓冲 器 中 存在 至 
少 一 个 信号 包 , 则 事件 发 生 的 概率 为 1 一 5 一 d; 如 果 当 时 在 缓冲 器 中 没有 信和 号 包 , 则 
事件 发 生 的 概率 为 1 一. 

我 们 建立 一 个 马尔 可 夫 链 , 其 状态 空间 为 0,1,… ,m, 这 些 状态 表示 缓冲 器 中 
信号 包 的 个 数 . 转移 概率 图 如 图 7.16 所 示 . 转移 概率 图 能 够 更 加 明晰 地 表达 这 种 
状态 的 转移 关系 . 


1—b—d 1—b—d 


1—5b lI—d 
b b pb v 
ad ad ad d 


图 7.16 例 7.9 的 转移 概率 图 


局 部 平衡 方程 组 为 


Nib = Mit+1d, i=0,1,..….,m—1. 
我 们 定义 
0 一 & 


可 以 得 到 ri+l = pri, 从 而 推出 


人 
Ti pTo, i= 0,1,.… ,m. 


通过 应 用 归 一 化 方程 1 = zo 十 ti 十 … 十 Aom, 我 们 可 以 得 到 


1= Ao(l+p+. + pp"), 


以 及 
WE 
a 若 0D 到]， 
a 1] 一 pmT1 
T0 一 ] 
=1. 
7 十 1 若 p 
再 利用 等 式 rm = ro, 稳 态 概率 为 
J omri?; 有 Pp 六 1， 
st i = 0,1,... ,m. 
0 > 
7 十 工 行 P 一 局 


当 缓冲 器 容量 m 很 大 , 实际 中 可 以 认为 无 穷 的 时 候 , 看 看 会 发 生 什么 很 有 趣 
的 事情 . 我 们 分 两 种 情况 . 
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(a) 假设 


b < d, 或 者 说 p < 1. 这 种 情况 下 , 新 信号 到 达 的 概率 小 于 缓冲 器 中 信 


号 离开 的 概率 . 这 就 避免 了 缓冲 器 中 信号 数量 的 增加 , 并 且 稳 态 概率 随 着 i 增 大 


而 减少 , 其 分 布 列 为 截 尾 型 的 几何 分 布 . 注意 到 当 


我 们 可 以 把 它 看 成 是 具有 无 限 个 缓冲 器 的 系统 的 稳 


G 一 放 =1] 


mL 一 co 有 1-pm+l 一 1 以 及 


Ti 一 p'(1 一 p)， 对 于 所 有 的 i 


态 概率 . [验证 时 , 注意 到 并 22， 


(b) 假设 5 > d, 或 者 说 p > 1. 这 种 情况 下 , 新 信号 到 达 的 可 能 性 大 于 缓冲 器 中 
信号 离开 的 可 能 性 . 缓冲 器 中 信和 号 的 数量 趋 近 于 增加 , 并 且 稳 态 概 率 x; 随 着 i 


大 而 增加 . 1 


于 我 们 考虑 的 缓冲 器 具有 很 大 的 容量 


逐渐 趋 近 于 0 的 : 


Ai 一 0， 对 于 所 有 的 


m, 任何 状态 i 的 稳 态 概率 都 是 


ve 


如 果 我 们 考虑 系统 具有 无 限 个 缓冲 器 , 我 们 将 得 到 一 个 具有 可 数 无 穷 多 个 状态 的 马 


尔 可 夫 链 . 尽管 我 们 不 讨论 这 相 


都 具有 零 的 稳 态 概率 , 每 个 状态 将 是 非常 返 的 . 组 ; 


屿 


穷 多 个 , 并 目 


的 链 , 但 是 根据 前 面 的 计算 , 我 们 知道 每 一 个 状态 


器 中 的 信号 的 个 数 将 增加 到 无 


任何 特定 的 状态 都 只 能 被 访问 有 限 次 . 


前 面 的 分 析 对 具有 可 数 无 穷 多 个 状态 的 马尔 可 夫 链 的 性 质 有 了 一 个 大 致 的 了 
解 . 在 这 种 马尔 可 夫 链 中 , 即使 是 只 有 一 个 非 周 期 的 常 返 类 , 链 的 状态 也 不 会 是 稳 


态 , 也 不 会 有 


FP, 我 们 将 学 习 马 尔 可 夫 链 的 短 


平稳 概率 分 布 存在 . 
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pxk 二 1， 对 于 所 有 的 j 六. 


如 果 只 有 唯 


期 行为 . 首先 , 考虑 开始 于 非常 返 状 态 
的 情形 , 我 们 感 兴趣 的 是 首次 访问 常 返 态 的 分 布 以 及 对 应 的 到 达 时 间 的 分 布 . 

当 我 们 讨论 这 个 问题 的 时 候 , 马尔 可 夫 链 的 后 
重要 的 . 所 以 我 们 重点 讨论 每 一 个 常 返 态 大 为 吸收 的 , 也 就 是 


续 行为 (到 达 常 返 态 之 后 ) 是 不 


避 


Dkj = 0. 


的 一 个 吸收 态 &, 那么 它 的 稳 态 概率 为 1( 因 为 其 他 所 有 的 状态 都 是 非 


背 返 的 , 并 


其 稳 态 概率 都 是 0). 从 任何 一 个 初始 的 非常 返 状 态 出 发 , 将 以 概率 1 


达到 这 个 吸收 状态 . 如 果 有 多 个 吸收 状态 , 那么 经 过 若干 步 的 转移 , 这 个 状态 终 将 
到 达 某 个 吸收 态 . 但 是 具体 到 达 哪 一 个 吸收 态 , 这 是 随机 的 , 并 且 到 达 各 吸收 态 的 
概率 分 布依 赖 于 初始 状态 . 现在 我 们 固定 一 个 吸收 态 , 设 为 s, 令 w 表示 链 从 状态 
i 开始 , 最 终 达 到 s 的 概率 : 


ai 二 P(X 最 终 等 于 吸收 状态 s|Xo = 让. 
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这 个 概率 称 为 吸收 概率 . 吸收 概率 可 以 通过 解 以 下 线性 方程 组 得 到 . 


吸收 概率 方程 组 

考虑 一 个 马尔 可 夫 链 , 它 的 每 一 个 状态 或 者 是 非常 返 的 , 或 者 是 吸收 的 , 并 固 
定 一 个 吸收 状态 s. 那么 从 状态 i 开始 , 最 终 达 到 s 的 概率 ui 是 下 列 方程 组 的 唯 
一 解 : 


as 一 ]， 

0 对 于 所 有 吸收 状态 i 六 s， 

ai 二 》 pijaj， 对 于 所 有 非常 返 状态 i 
二 


由 吸收 概率 的 定义 , 很 明显 得 到 方程 组 os = 1 以 及 对 于 所 有 吸收 状态 i 了 s， 
ai 二 0. 为 了 证 明 剩 下 的 方程 组 , 论证 如 下 . 考虑 一 个 非常 返 状 态 i, 令 4 表示 状态 
最 终 被 达到 的 事件 . 我 们 有 


= (4 = 力 pi (马尔 可 夫 性 质 ) 


关于 吸收 概率 方程 组 的 解 的 唯一 性 需要 单独 的 证 明 , 将 在 本 章 末 的 习题 中 给 出 . 

接 下 来 的 例子 将 阐述 我 们 如 何 利用 前 面 所 述 的 方法 计算 进入 给 定常 返 态 的 概 
率 (并 非 仅仅 是 进入 给 定 吸收 状态 )， 
例 7.10 ”考虑 如 图 7.17(a) 所 示 的 马尔 可 夫 链 . 注意 这 里 具有 两 个 常 返 类 , 分 别 是 
伍 } 和 {4,5}. 我 们 计算 开始 于 一 个 非常 返 状 态 、 最 终 进 入 常 返 类 {4,5} 的 概率 .为 
了 解决 这 个 问题 , 考虑 常 返 类 {4,5} 内 的 可 能 转移 不 是 实质 性 的 . 所 以 我 们 将 该 常 
返 类 的 状态 整合 , 把 它们 看 成 单个 的 吸收 状态 ( 称 之 为 状态 6), 参见 图 7.17(b). 现 
在 只 需 计 算 新 链 中 最 终 进入 状态 6 的 概率 . 

从 非常 返 状 态 2 和 3, 最 终 达 到 6 的 概率 满足 以 下 方程 组 : 


a2 三 0.2a1 十 0.3as 十 0.4as 十 0.1a6， 


rk 


Qs = 0.2a2 十 0.8a6. 


利用 事实 w = 0 和 a6 = 1, 我 们 得 到 


0.1 


图 7.17 (a) 例 7.10 的 转移 概率 图 ; (b) 将 状态 4 和 状态 5 整合 成 吸收 状态 6 的 新 链 


Qa2 一 0.3a» 人 0.4a3 十 0.1, 


Q3 一 0.2a2 十 0.8. 


这 是 关于 未 知 数 a。 和 as 的 二 元 一 次 方程 组 . 求解 得 到 as = 21/31 及 as = 29/31. 


例 7.11 ( 赌 徒 的 破产 问题 ) ”一 个 赌 徒 每 局 赌博 以 概率 p 赢 1 美元 , 同时 以 概率 
1 一 p 输 掉 1 美元 . 假设 不 同 赌局 之 间 是 相互 独立 的 . 赌 徒 会 一 直 赌博 直到 资金 到 
达 某 个 目标 总 数 m, 或 者 输 掉 全 部 的 钱 . 请 问 最 终 资金 能 到 达 目 标 m 或 者 输 掉 他 
全 部 资金 的 概率 是 多 少 ? 

我 们 建立 马尔 可 夫 链 , 参见 图 7.18, 它 的 状态 i 表示 每 次 赌局 开始 时 , 赌 徒 的 
资金 . 状态 ?= 0 和 i= m 分 别 表示 最 终 输 和 启 . 

除了 最 终 输 和 赢 的 状态 是 吸收 的 , 其 余 状态 都 是 非常 返 的 . 所 以 , 问题 转变 成 
了 对 应 计算 每 个 吸收 态 的 吸收 概率 . 当然 , 这 些 吸收 概率 会 依赖 于 初始 状态 i 的 选 


取 . | 人 , ， 
0 DLL 0 
—p 赢 


图 7.18 2 的 破产 例 ， 国 7.11) 的 转移 概率 图 , 这 里 m = 4 


我 们 令 s = m, 且 吸 收 概 率 a; 表示 从 状态 i 出 发 , 最 终 遍 的 概率 . 那么 这 些 概 
率 满 足 


ao 一， 
ai 一 (一 D)ai_l 十 Pai+l， i=1,.…,m—1, 


Oy = 
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这 个 方程 组 可 以 通过 很 多 种 方法 来 求解 .下 面 我 们 利用 一 种 比较 简单 的 方法 解 该 
方程 组 . 
对 于 每 个 ai, 我 们 有 


(1 —p)(Q; — Qi;_1) = p(ai41 — Qi), 2 一 |: ,mC—1. 


那么 , 令 
0 一 al 一 0a， 1=0, ,mC—1, 
以 及 
l=p 
1 
p 
从 而 方程 组 转变 成 
0i = 00i-1， i=1,.… ,mo—l1, 
由 此 可 得 
6G=p60, i=1,...,m—1. 
于 是 结合 等 式 60 + 01 (| O72 二 Qm 一 CQ0 一 1, 可 得 
(1+p+…+p™  )50=1, 
也 就 是 


1 
十 十 :十 pm 
因为 ao = 0 以 及 ui = qi 十 5%, 从 一 个 状态 i 出 发 , 最 终 说 的 概率 a; 是 


00 


Qi 二 00 十 人 红 十 … 十 0i-1 
=(1 寺 Pp 二. 二 Pp")6o 
1 p Pen 


化 简 得 
1—p’ ee 
i = 有 Pp 产 1， 
Qi 一 2 
i i 
mm 


结果 揭示 了 , 如 果 p > 1, 也 就 是 p < 1/2, 财 健 每 次 赢 的 概率 相对 小 , 那么 最 终 
赢 的 概率 (不 管 初始 资金 是 多 少 ) 随 m 一 oo 趋 近 于 0, 这 就 表明 , 如 果 我 们 在 不 理 
想 的 概率 下 (每 次 赢 的 概率 小 于 输 的 概率 ), 想 赢 取 更 大 的 资金 , 最 终 完全 破产 是 几 
乎 一 定 的 . 
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7.4.1 “平均 吸收 时 间 
现在 我 们 转 而 关注 从 一 个 特定 的 非常 返 状态 出 发 , 直到 到 达 一 个 常 返 状态 ( 称 
为 “吸收 ”) 的 平均 步 数 . 对 于 任何 一 个 i, 我 们 定义 


i 三 BI 从 状态 i 开始 , 直到 达到 吸收 态 所 需 的 步 数 ] 


二 Elmin{n > 0|X, 是 常 返 态 }|Xo = 4. 


注意 , 如 果 i 本身 为 常 返 态 , 那么 根据 定义 ji = 0. 

我 们 利用 全 期 望 定理 得 到 关于 ji 的 方程 组 . 从 一 个 非常 返 状态 i 出 发 直到 进 
入 吸收 状态 所 需 的 时 间 的 期 望 值 等 于 1 加 上 从 下 一 个 状态 7 出 发 直到 进入 吸收 状 
态 所 需 的 时 间 的 期 望 值 的 加 权 平 均 , 而 权 值 刚好 是 由 i 到 下 一 个 状态 7 的 概率 pi 
于 是 我 们 得 到 一 个 线性 方程 组 , 可 以 证 明 , 这 个 线性 方程 组 具有 唯一 的 解 (参见 本 
章 末 的 习题 33). 


平均 吸收 时 间 方程 组 
平均 吸收 时 间 ju,… ,jm 是 下 列 方程 组 的 唯一 解 : 


mi = 0, 对 于 所 有 的 常 返 状态 i 
Hi=1+ > Dij1 对 于 所 有 的 非常 返 状 态 i 
j=1 


例 7.12 (蜘蛛 和 苍蝇 ) ”考虑 例 7.2 中 的 蜂 蛛 和 苍 晶 的 模型 ， 它 对 应 图 7.19 中 的 
马尔 可 夫 链 . 状态 对 应 苍蝇 可 能 的 位 置 , 吸收 状态 1 和 状态 m 表示 蜂 蛛 对 苍 晶 的 
捕捉 . 

接 下 来 我 们 计算 苍蝇 被 捕捉 的 平均 步 数 . 我 们 有 


H1 三 Hm = 0， 
以 及 
由 二 工 十 0.3H1 十 0.41 十 0.3Hi1， 当 ; =2,.…,m—1. 


解 这 个 方程 组 有 很 多 方法 , 例如 通过 依次 迭代 法 . 现在 我 们 详细 阐述 , 假定 m = 4， 
方程 组 可 以 简化 为 


12 三 1 十 0.412 十 0.343， 3 三 1 十 0.3p2 十 0.413. 


第 一 个 方程 得 出 wa = (1/0.6) 十 (1/2)1s, 将 其 代入 第 二 个 方程 可 解 得 ws. 我们 得 到 
13 = 10/3, 再 次 代入 第 一 个 方程 得 jw2 = 10/3. 
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0.4 0.4 

全 03 (ON 如 内 
KU BO: 2 
FRR 0. 0. 


图 7.19 例 7.12 中 的 转移 概率 图 


7.4.2 ”平均 首 访 时 间 及 回访 时 间 


用 于 计算 平均 吸收 时 间 的 想法 也 可 以 用 于 计算 开始 于 任何 其 他 状态 , 到 达 某 特 
定常 返 状态 的 平均 时 间 . 为 了 简化 , 我 们 只 考虑 只 有 单个 常 返 类 的 马尔 可 夫 链 . 我 


们 着 眼 于 一 个 特定 的 常 返 态 


= 了 [从 状态 i 


=Elmin{n > 


开始 , 首次 达到 状态 s 的 转移 步 数 ] 


s, 并 令 tt 表示 从 状态 i 到 状态 s 的 平均 首 访 时 间 , 定 


到 达 状 态 s 之 后 的 转移 和 计算 平均 首 访 时 间 是 没有 关系 的 . 所 以 , 我 们 将 特殊 


状态 s 看 成 一 个 吸收 状态 ( 令 zs。 = 1, 对 于 所 有 的 j #s 令 po = 0.)， 
可 夫 链 本 质 上 是 和 原来 一 致 的 . 通过 这 个 转化 , 除了 s 外 的 所 有 状态 都 是 
了 . 于 是 我 们 利 月 的 公式 , 计算 时 间 tw 相当 于 计算 从 状态 
收 的 平均 步 数 . 我 们 有 


该 线性 方程 组 能 用 于 解 未 知 的 &, 并 |] 


本 节 前 面 给 


t=1+ 》 pijty, 对 于 所 有 的 i 取 s， 


ts=0. 


可 以 计算 到 达 特 定 状态 s 


=Elmin{n > 


龙 = 卫 [从 状态 s 开始 , 首次 回 到 状态 s 的 转移 步 数 ] 


1|X = s}Xo = 5|. 


如 果 我 们 知道 首次 访问 时 间 把, 束 可 以 通过 以 下 方程 得 到 女 ， 


mm 
=1+ > pt 
j=1 


新 的 马尔 


E 常 返 的 


只 有 唯一 的 解 (参见 本 章 末 的 习题 
上 述 方程 组 给 出 了 从 任何 其 他 状态 开始 , 到 达 特 定 状态 s 的 平均 时 间 . 我 们 也 
的 平均 回访 时 间 , 定义 为 


i 出 发 被 吸 
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为 了 验证 该 等 式 , 我 们 说 从 状态 s 开始 , 回 到 状态 s 的 平均 时 间 等 于 1 加 上 从 下 一 
个 状态 出 发 到 达 状 态 s 的 平均 首 访 时 间 , 链 处 于 下 一 个 状态 7 的 概率 为 psj. 利用 
全 期 望 定理 即 可 得 到 世 的 公式 . 

例 7.13 考虑 例 7.1 中 爱丽 丝 听课 的 两 种 状态 “进步 ”和 “ 沙 后 ”, 证 明 她 的 状态 
形成 一 个 马尔 可 夫 链 , 状态 1 和 状态 2 分 别 对 应 进步 和 落后 , 且 转 移 概率 为 


p11 二 0.8, Di 0.2， 


P21:= 0.6， p22 一 0.4. 


我 们 着 眼 于 状态 s = 1, 计算 从 状态 2 开始 到 达 状 态 1 的 平均 首 访 时 间 . 我 们 
有 石 =0, 以 及 


t2 = 1++p2iti + p22t2 = 1+0.4t», 


由 此 可 得 
Re 
2 06 3 
到 达 状 态 1 的 平均 回访 时 间 等 于 
5 4 
妇 二 1 十 piiti 十 pi2t2 二 1 十 0 十 0.2. 3 


平均 首 访 时 间 和 回访 时 间 方 程 组 
考虑 只 有 单个 常 返 类 的 马尔 可 夫 链 , 令 s 为 特定 的 常 返 状态 
。 从 状态 到 状态 s 的 平均 首 访 时 间 志 是 下 列 方程 组 的 唯一 解 : 


ts = 0, ti=1+ D> pit, 对 于 所 有 的 i s, 
7=1 


。 状态 s 的 平均 回访 时 间 万 为 


mm 
上 =1+》 pit 
j=1 


7.5 ”连续 时 间 的 马尔 可 夫 链 


前 面 所 考虑 的 马尔 可 夫 链 中 , 我 们 假设 状态 的 转移 都 是 在 单位 时 间 内 发 生 的 . 
丁 将 考虑 连续 时 间 的 模型 , 它 能 被 用 于 很 多 按照 连续 时 间 到 达 的 过 程 . 例子 是 通 
信和 网络 中 的 分 布 中 心 或 结 点 , 其 中 感 兴趣 的 事件 (例如 , 新 信号 的 到 达 ) 是 按照 泊 松 
过 程 到 达 的 . 
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与 前 面 类 似 , 我 们 将 考虑 一 个 过 程 , 它 按照 一 定 的 转移 概率 从 一 个 状态 转移 
到 下 一 个 状态 , 但 是 我 们 令 两 次 转移 之 间 的 时 间 是 一 个 连续 随机 变量 .我 们 依旧 
假设 状态 的 个 数 是 有 限 的 , 并 且 在 不 特别 指明 的 情况 下 ,， 设 状态 空间 是 集合 S = 
{1, 人 ,mm}. 
为 了 进一步 介绍 该 过 程 , 我 们 引入 以 下 感 兴趣 的 随机 变量 . 
Xn: 第 n 次 转移 后 的 状态 ; 
到 :第 7 次 转移 的 时 间 ; 
元 :第 n 一 1 次 转移 和 第 n 次 转移 的 间隔 时 间 . 


为 完整 起 见 , 我 们 假设 Xo 表示 初始 状态 , 且 令 ”w= 0. 我 们 给 出 以 下 假设 . 


连续 时 间 马 尔 可 夫 链 的 假设 
。 如 果 当 前 状态 是 i, 到 下 一 个 转移 的 时 间 服 从 已 给 参数 v; 的 指数 分 布 , 且 
独立 于 之 前 的 历史 过 程 和 下 一 个 状态 . 

。 如果 当前 状态 是 i, 按照 给 定 的 概率 pi; 到 达 下 一 个 状态 j, 而 且 独 立 于 之 

前 的 历史 过 程 和 转移 到 下 一 个 状态 的 时 间 间 隔 . 


上 述 假设 是 该 过 程 的 一 个 完整 的 描述 , 并 提供 一 种 清晰 的 方法 来 解释 它 : 链 进 

入 状态 i, 在 状态 i 停留 , 停留 时 间 是 按照 参数 为 v; 的 指数 分 布 , 然后 再 以 转移 概 

率 pij 到 达 状 态 j. 一 个 直接 的 结果 是 , 状态 序列 X 在 经 过 依次 转移 后 , 成 为 了 一 

个 离散 时 间 的 马尔 可 夫 链 , 其 转移 概率 是 pij, 该 链 称 为 谋 入 的 马尔 可 夫 链 . 
数学 形式 上 , 我 们 的 假设 可 以 用 公式 来 表达 . 令 


A= {T= ,Th = th Ko = i ,Xn_1 = in_1 Xn = 


为 直到 第 n 次 转移 发 生 之 前 链 所 有 发 生 的 事件 . 我 们 有 


P(Xnt1= Tari tA)=P(Xnt1 = 7 Tnt1 >tXn = 
=P(Xn+1 = Xn = 0)P(Tnt > tIXn = 
二 pije “对 于 所 有 + > 0. 


到 下 一 个 转移 的 平均 时 间 为 


2 1 
El[Tri|Xn, = 1 = / TUie "i "dT = —, 
0 


所 以 我 们 可 以 认为 vi 是 停留 在 状态 i 的 单位 时 间 上 , 转移 出 状态 i 的 平均 转移 次 
数 . 于 是 , 参数 v; 称 为 跳出 状态 i 的 转移 速率 . 因为 pij 表示 从 状态 i 转移 到 状态 
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5 的 概率 , 所 以 


Qij 二 ViDij 


表示 停留 在 状态 i 的 单位 时 间 上 , 从 状态 i 到 状态 7 的 平均 转移 次 数 . 从 而 , 我 们 
称 qi; 为 从 状态 i 到 j 的 转移 速率 . 注意 , 给 定 转 移 速 率 gq;;, 我 们 就 可 以 通过 下 列 
公式 计算 转移 速率 v;， 


Wn: >》， ij, 
j=1 
并 利用 下 列 公式 计算 转移 概率 ， 
Qij 
Dij 一 a 


注意 , 模型 可 能 发 生 自 身 转移 , 就 是 从 一 个 状态 出 发 又 回 到 该 状态 . 当 自 身 转 
移 概 率 pi; 不 为 0 时 , 自身 转移 就 会 发 生 . 但 是 , 这 样 的 自身 转移 没有 观察 的 意义 : 
因为 指数 分 布 的 无 记忆 性 , 直到 下 一 个 转移 剩余 的 时 间 是 一 样 的 , 不 论 自身 转移 发 
生 与 否 . 由 于 这 个 原因 , 我 们 忽略 自身 转移 , 从 而 假设 


pii 二 qii 二 0， 对 于 所 有 的 i 


例 7.14 台 运 转 中 的 机 器 会 一 直 工 作 , 直到 警告 信号 产生 . 从 开始 工作 一 直到 
产生 警告 信号 的 时 间 服 从 参数 为 1 的 指数 分 布 . 产生 警告 之 后 , 机 器 将 被 检修 , 检 
修 的 时 间 服 从 参数 为 5 的 指数 分 布 . 检修 结果 以 1/2 的 概率 将 机 器 维修 好 , 此 时 机 
器 将 恢复 正常 生产 ; 而 另 一 个 可 能 的 结果 是 机 器 已 经 损坏 ( 概率 为 1/2), 机 器 将 送 
去 修理 . 修理 时 间 服 从 参数 为 3 的 指数 分 布 . 我 们 假设 前 面 提 到 的 随机 变量 都 是 相 
互 独立 的 , 且 独 立 于 检修 结果 . 

令 状 态 1、2、3 分 别 表 示 正 常 工 作 、 检 验 、 修 理 . 转移 速率 是 1 = 1,v2 = 5， 
v3 = 3. 转移 概率 矩阵 和 转移 速率 矩阵 表示 如 下 


0 1 0 0 1 0 
P=| 1/2 0 1/2 |， Q= | 5/2 0 5/2 
1 0 0 3 0 0 


具体 解释 参见 图 7.20. 
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我 们 最 终 发 现 前 面 定 义 的 连续 时 间 的 马尔 可 夫 
链 具 有 和 离散 时 间 马 尔 可 夫 链 类 似 的 马尔 可 夫 性 质 : 
在 给 定 的 当前 状态 下 , 未 来 独立 于 过 去 . 为 了 进一步 
认识 该 性 质 , 定义 X(t) 表示 连续 时 间 马 尔 可 夫 链 在 
时 间 + > 0 的 状态 , 且 注 意 它 在 两 次 转移 之 间 ” 将 
停留 一 段 时 间 ， 利 用 指数 分 布 的 无 记忆 性 , 可 以 推 
出 , 对 于 第 ”次 转移 时 间 7, 和 第 n 十 1 次 转移 时 间 


+1 之 间 的 任意 时 刻 t, 直到 下 一 个 转移 发 生 的 剩余 ”图 7.20 例 7.14 中 马尔 可 
时 间 41 一 上 独立 于 系统 已 经 在 目前 状态 所 停留 的 夫 链 的 阐述 ， 弧 线 
时 间 +- 丈 . 进一步 推出 , 对 于 任意 时 刻 t, 和 给 定 当 附近 的 数据 表示 转 
前 的 状态 X(#), 过 程 的 未 来 [随机 变量 X(7),7 > 移 速率 qiy 
独立 于 过 去 [随机 变量 X(r),r < 


7.5.1 ”利用 离散 时 间 马 尔 可 夫 链 的 近似 


我 们 来 阐述 连续 时 间 马 尔 可 夫 链 和 对 应 离散 时 间 形 式 的 联系 . 这 个 联系 给 出 了 
连续 时 间 马 尔 可 夫 链 的 另 一 种 描述 , 以 及 表示 稳 态 行为 的 平衡 方程 组 . 

取 定 一 个 小 的 正 数 5, 考虑 离散 时 间 马 尔 可 夫 链 2 它 是 每 隔 一 小 段 时 间 5 观 
察 X(t) 所 得 到 的 


Zn = X(nd), n=0,1,.…. 


实际 上 , 根据 X(t) 的 马尔 可 夫 性 质 , 可 知 Zz, 是 一 个 马尔 可 夫 链 (给 定 当 前 状态 的 
前 提 下 , 未 来 独立 于 过 去 ). 我 们 利用 记号 5,; 表示 2 的 转移 概率 . 


给 定 状态 2 = 则 时 刻 n6 和 (mn 十 1)5 之 间 发 生 转移 的 概率 近似 等 于 v6. 进 
一 步 地 , 概率 pi; 表示 转移 到 下 一 个 的 状态 是 j. 所 以 


Pi; = P(Znt+1 = jlZn = 1) = vipij6 + 0(6) = qi;6 + 0(0), 如 果 7 关 


其 中 o(6) 表示 随 6 变 小 时 的 无 穷 小 量 . 停留 在 状态 i 的 概率 是 [也 就 是 , 在 时 刻 n6 
和 (+1)6 之 间 没 有 发 生 转 移 ] 


pi=P(Znt1=iZn=i)=1— Dp. 
了 天 


这 就 给 出 连续 时 间 马 尔 可 夫 链 如 下 所 述 的 另 一 种 描述 .” 


@ 如 果 转 移 愉 好 发 生 在 时 刻 t, 记号 科 (t) 的 定义 有 些 不 清楚 . 通常 的 做 法 是 令 X(t) 为 恰好 发 生 转 移 
之 后 的 状态 , 这 时 XX(Yh) 就 是 Xn. 
@ 到 目前 为 止 , 我 们 已 经 证 明 一 个 连续 时 间 的 马尔 可 夫 链 满足 这 些 性 质 . 相反 , 也 可 以 证 明 如 果 使 用 这 
种 描述 方法 , 可 以 证 明 : 直到 从 状态 i 发 生 转 移 所 需要 的 时 间 是 指数 分 布 , 参数 是 w = > ; qij. 进 
步 , 在 这 种 转移 已 经 发 生 的 事实 条 件 下 , 转移 到 状态 j 的 概率 是 qij /vi = pi 这 就 证 得 了 这 种 描述 方 
法 与 原始 的 方法 描述 的 马尔 可 夫 链 是 一 样 的 . 


ER 
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连续 时 间 马 尔 可 夫 链 的 另 一 种 描述 方法 
给 定 连续 时 间 马 尔 可 夫 链 的 当前 状态 i, 对 于 任何 j 关 i, 单位 时 间 5 之 后 的 


且 独 立 于 过 程 过 去 的 情况 . 
例 7.14( 续 ) 忽略 o(5) 项 , 对 应 的 离散 时 间 马 尔 可 夫 链 2 的 转移 概率 矩阵 为 


1 一 0 0 0 


56/2 1—55 56/2 


30 0 1 一 30 


例 7.15 (排队 论 ) “在 一 个 通信 系统 中 到 达 绥 冲 器 的 信号 包 的 过 程 是 一 个 参数 为 入 
的 泊 松 过 程 . 信号 存放 在 容积 为 m 的 缓冲 器 里 , 且 每 次 只 传输 一 个 信号 . 但 是 , 如 
果 缓 冲 器 里 面 的 信号 已 满 , 新 来 的 信号 就 会 丢失 . 传输 一 个 信号 需要 的 时 间 服 从 参 
数 为 / 的 指数 分 布 . 不 同 信号 之 间 的 传输 时 间 是 相互 独立 的 , 也 独立 于 所 有 间隔 时 
间 . 


我 们 将 利用 连续 时 间 马 尔 可 夫 链 对 该 系统 建 模 , 状态 是 X(t) 表示 t 时 刻 对 应 
系统 中 的 信号 数量 [如 果 X(t) > 0, 那么 X(t) -1 表示 队列 中 等 待 的 信号 数量 , 有 
一 个 信号 正在 被 传输 ]. 当 新 信号 达到 , 状态 将 增加 1; 当 已 存 信号 被 传输 , 状态 将 减 
少 1. 为 了 证 明 X(t) 确实 是 一 个 马尔 可 夫 链 , 我 们 利用 马尔 可 夫 过 程 的 另 一 种 描 
述 性 定义 , 并 且 同 时 给 出 转移 速率 Qi 

首先 考虑 系统 中 为 空 的 情况 , 也 就 是 状态 X(t) 为 0 的 情况 . 从 状态 0 的 转移 
只 有 当 新 信和 号 到 达 才 能 发 生 , 在 这 种 情况 下 , 状态 变 成 了 1， 因为 信号 的 到 来 是 一 
个 泊 松 过 程 , 所 以 有 


P(X(t +46)=1|X() =0) = M+o0(0), 


和 A， ”如 果 j 了 =1， 
d07 二 
0， ”和 否则 . 


接 下 来 , 考虑 系统 中 信号 满 的 情况 , 也 就 是 状态 X(t) 为 m 的 情况 . 状态 m 的 
转移 只 有 当 现 有 的 一 个 信和 号 完成 传输 才能 发 生 , 传输 完成 后 状态 变 成 了 由 一 1. 因 
为 传输 所 用 的 时 间 服 从 指数 分 布 (具有 无 记忆 性 ), 所 以 有 


P(X(t 4+6) =m- 1|X(t) =m) = 6 + 0(0), 


7.5 ”连续 时 间 的 马尔 可 夫 链 ”321 


儿 ， 若 了 王公 一 了 
dmj 一 


0， 其 他 . 


最 后 , 考虑 系统 状态 X(t) 等 于 某 个 中 间 状 态 i, 0 <i<m. 在 下 一 个 单位 时 间 
6 中 , 新 信号 到 来 的 概率 是 和 65 + 0(6), 使 得 状态 变 成 了 i 十 1, 完成 一 个 信号 的 传输 
的 概率 是 16 + o(6), 使 得 状态 变 成 了 i 一 [在 时 间 间 隔 5 中 同时 有 新 信号 到 来 和 已 
有 信和 号 的 传输 完成 的 概率 是 与 62 同 阶 的 , 所 以 可 以 被 忽略 , o(6) 的 其 他 形式 的 情 
况 也 类 似 处 理 .] 所 以 


P(X(t+46) 一 1IXO = = 6+o0(0), 


P(X(t46)=i+1X(t) = = M+o0(0), 


qij 二 人 4， 若 j7=i-1， 对 于 所 有 的 i=1,2,…,m 一 1. 


参见 图 7.21. 


入 入 入 入 
A [a A A 


图 7.21 例 7.15 中 的 转移 图 


7.5.2” 稳 态 性 质 

现在 我 们 把 注意 力 放 在 连续 时 间 马 尔 可 夫 链 的 长 期 行为 上 , 重点 在 计算 当时 间 
t 不 断 增 大 时 , 停留 在 状态 i 的 概率 P(X(t) = 引 的 极限 情况 . 我 们 通过 研究 对 应 的 
离散 时 间 马 尔 可 夫 链 2 的 稳 态 概率 来 解决 该 问题 . 
因为 2 = X(n5), 很 显然 如 果 P(Z = j|20 = 介 的 极限 x 存在 的 话 , 必 等 于 
P(X(t) = j|X(0) = 的 极限 . 所 以 我 们 只 需 考 虑 2 的 稳 态 概率 . 因为 是 在 离散 时 
间 链 里 , 我 们 知道 因为 稳 态 概率 是 独立 于 初始 状态 的 , 所 以 我 们 只 需 假 定 链 2 只 
有 一 个 常 返 类 . 我 们 也 注意 到 马尔 可 夫 链 2 一 定 是 非 周期 的 . 这 是 因为 自身 转移 


Di 5 gi 十 of0)， 
jzi 
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当 6 很 小 时 , 这 个 概率 为 正 数 . 而 具有 非 零 自 身 转移 概率 的 链 总 是 非 周 期 的 . 


我 们 
程 组 


我 们 现在 可 以 给 出 链 又 的 稳 态 收敛 定理 . 


链 2 的 平衡 方程 组 有 以 下 形式 


元 7 二 repey, 对 于 所 有 的 也 


Tj Dj regs 


kj kz 


ss 
i 是 
Tj = TDjj + Ti 
R21 
= ( 一 5》， 的 尺寸 | 十 》， Tk(dqk7J6 十 0(0)). 
R21 kz 
合并 方程 两 边关 于 x; 的 项 , 再 除 以 6, 计算 当 5 趋 于 0 时 的 极限 , 得 到 平衡 方 


稳 态 收敛 定理 


考虑 具有 单个 常 返 类 的 连续 时 间 马 尔 可 夫 链 . 那么 , 状态 7 以 及 对 应 的 稳 态 


概率 x; 具有 如 下 性 质 


(a) 对 于 每 个 j, 我 们 有 
in P(X(#) =jIX(0) = 引 = Tj， 对 于 所 有 的 


(b) zi; 是 下 列 方程 组 的 唯一 解 : 
Tj Yjk = > TKOR j=1,.… ,m, 
全 hz 


1= 》 mk 
k=1 


(c) 另外 有 
nj 二 0， 对 于 所 有 的 非 


党 
站 > 0， 对 于 所 有 的 常 返 


3 


返 态 j 
态 


J. 


均 长 


区 


为 了 进一步 曾 述 平衡 方程 组 , 我 们 把 x; 看 成 过 程 花费 在 状态 7 上 的 时 间 的 习 


期 频率 . 那么 rkgkjy 就 可 以 看 成 从 到 ; 的 转移 的 平均 频率 (单位 时 间 内 , 转 
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移 从 天 到 了 的 平均 次 数 ). 所 以 平衡 方程 组 的 本 质 就 是 从 状态 7 开始 的 转移 的 频率 
(方程 的 左边 zj jy; jx) 等 于 进入 状态 7 的 转移 的 频率 (方程 的 右边 Dy; mkgky). 
例 7.14( 续 ) 该 例子 的 平衡 方程 组 和 归 一 化 方程 为 


5 5 
Tl 一 =Tr2 十 37T3，572 一 T1，373 三 二 T2， 


2 2 
工 一 Trl 十 Ta2 十 Tr3. 
和 离散 时 间 的 情况 一 样 , 这 些 方程 组 中 有 一 个 是 多 余 的 . 比如 说 , 第 三 个 方程 可 以 
由 前 两 个 方程 得 到 . 进一步 地 , 得 到 唯一 解 
30 6 5 

i 
所 以 , 例如 , 如 果 我 们 让 过 程 长 期 转移 下 去 , X(t) 将 以 稳 态 概率 30/41 停留 在 状态 
1, 且 独 立 于 初始 状态 . 

该 稳 态 概率 x; 要 区 分 于 拱 入 的 马尔 可 夫 链 Xi, 的 稳 态 概率 元 . 实际 上 , 嵌入 
的 马尔 可 夫 链 X 的 平衡 方程 组 和 归 一 化 方程 为 


T1 


1 1 
Nl 二 saN2 二 Na3, NAN2 = NI1, N33 = aN, 


2 2 


1 = 7 十 72+ 7s, 


得 出 结论 


T2 二 7T3 二 =. 


5 5 

为 了 六 述 概率 元 的 意义 , 我 们 举例 说 明 , 如 果 让 过 程 长 期 转移 下 去 , 到 达 状 态 1 的 
转移 平均 频率 为 2/5. 

注意 , 尽管 z+1 = 72( 也 就 是 , 转移 到 达 状 态 1 的 次 数 和 到 达 状 态 2 的 次 数 相 
当 ), 我 们 也 有 ma > ma. 原因 是 过 程 倾向 于 在 到 达 状 态 1 时 多 花费 一 些 时 间 , 相对 
于 化 费 在 状态 2 上 的 时 间 要 长 . 所 以 , 给 定 一 个 时 刻 t, 过 程 X(t) 更 有 可 能 处 于 状 
态 1. 这 种 情况 是 典型 的 , 两 组 稳 态 概率 (x; 和 元 ) 一 般 情况 下 是 不 同 的 . 主要 的 
例外 情况 是 , 转移 速率 v 对 每 一 个 i 都 是 一 致 的 , 参见 本 章 末 的 习题 . 
7.5.3” 生 灭 过 程 

类 似 于 离散 时 间 的 情况 , 生 灭 过 程 中 的 状态 是 线性 排列 的 , 转移 只 发 生 在 相 邻 
状态 之 间 , 或 者 停留 在 原 处 . 正式 地 说 , 我 们 有 


dij = 0， 当 |i 一 有 四 >1. 


在 生 灭 过 程 中 , 从 i 到 j 的 转移 和 从 ; 到 i 的 转移 的 长 期 平均 频率 是 相同 的 , 由 此 
推出 了 局 部 平衡 方程 组 


Tj97i 二 Tiqij， 对 于 全 部 的 i 
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局 部 平衡 方程 组 与 离散 时 间 的 情况 具有 相同 的 结构 , 能 推出 类 似 形式 的 稳 态 概率 公 
式 . 
例 7.15( 续 ) 局 部 平衡 方程 组 形式 如 下 


MA 和 = Aisik, i1=0,1,.…,m—1, 


我 们 得 到 ri = pi 其 中 p= 和 Vn. 所 以 , 对 于 所 有 的 i 有 zi = ptro. 又 由 归 一 化 
方程 1 = xi 得 到 


7.6 ”小结 和 讨论 


在 本 章 中 , 我 们 介绍 了 具有 有 限 个 状态 的 马尔 可 夫 链 . 在 离散 时 间 马 尔 可 夫 链 
中 , 在 整数 时 刻 发 生 状态 转换 , 转移 概率 为 p;j. 马尔 可 夫 链 区 别 于 一 般 随 机 过 程 的 
核心 性 质 是 转移 概率 pi; 的 性 质 , 在 当前 状态 为 i 的 条 件 下 , 下 一 个 时 刻 为 状态 7 
的 转移 概率 为 pij, 这 与 i 所 在 的 时 刻 是 无 关 的 , 且 独 立 于 时 刻 以 前 的 状态 . 所 以 ， 
给 定 当前 一 个 状态 , 未 来 的 状态 与 过 程 的 过 去 状态 是 相互 独立 的 . 
从 现实 角度 看 建立 适当 的 马尔 可 夫 链 模型 从 某 种 意义 上 说 的 确 是 一 门 艺术 . 
般 地 , 我 们 需要 给 出 足够 充分 的 状态 信息 , 使 得 当前 状态 能 反映 来 自 过 程 中 任何 能 
联系 过 去 与 未 来 相关 的 信息 . 在 满足 上 述 要 求 的 基础 上 , 我 们 通常 需要 将 模型 变 得 
尽量 简洁 , 避免 不 必要 的 多 余 状态 . 

给 定 一 个 马尔 可 夫 链 模型 , 这 里 有 几 个 有 趣 的 问题 . 

(a) 有 关 有 限时 间 上 过 程 的 统计 量 的 问题 . 我 们 已 经 计算 过 过 程 经 过 任何 一 个 
特定 路 径 的 概率 , 通过 沿路 径 轨迹 的 转移 概率 的 连 乘积 得 到 . 更 一 般 的 事件 是 由 一 
些 相关 的 路 径 组 成 , 因此 在 计算 这 些 事件 的 概率 的 时 候 上 只 需 将 与 事件 相关 路 径 的 概 
率 相 加 即 可 . 在 一 些 情况 下 , 我 们 可 以 利用 马尔 可 夫 性 质 进行 计算 , 从 而 避免 列举 
与 事件 相关 的 所 有 路 径 . 例如 , 在 计算 n 步 转移 概率 的 时 候 , 可 以 利用 查 普 曼 - 科 
尔 英 臣 罗 夫 方程 进行 迭代 计算 . 

(b) 有 关 马 尔 可 夫 链 的 稳 态 概率 的 问题 . 为 了 解决 这 类 问题 , 我 们 对 马尔 可 夫 
链 的 状态 进行 分 类 , 状态 可 分 为 非常 返 的 和 常 返 的 两 类 . 马尔 可 夫 链 的 所 有 常 返 状 
态 的 集合 又 可 以 划分 为 互 不 相交 的 常 返 类 , 使 得 在 同一 个 常 返 类 中 的 状态 都 是 相互 


可 达 的 . 而 每 一 个 常 返 类 又 可 以 区 分 为 周期 包 
尔 可 夫 链 的 理论 的 中 心 结论 是 , 如 果 链 是 
的 非常 返 状态 组 成 


I 非 周 期 的 两 个 不 同性 质 的 常 返 类 . 马 


单个 非 周期 的 常 返 类 以 及 加 上 几 个 可 能 


的 ,那么 状态 到 达 某 个 7 的 概率 xi;(n) 在 时 间 趋 于 无 穷 大 时 是 


收敛 的 , 其 极限 值 称 为 稳 态 概率 zj, 这 个 极限 值 不 依赖 于 初始 状态 i. 换 句 话说 , 初 
始 状 态 不 论 取 什么 值 , 当 n 很 大 时 , 对 Xi 的 统计 特性 没有 影响 . 通过 解 由 平衡 方 


程 组 和 归 一 化 方程 沁 ; my = 1 组 成 的 线性 


方程 组 , 我 们 可 以 得 到 稳 态 概率 . 


(c) 有 关 马 尔 可 夫 链 的 状态 转移 性 质 的 问题 . 我 们 已 讨论 过 吸收 概率 (从 一 个 
给 定 的 非常 返 状 态 出 发 , 最 终 进 入 给 定 的 常 返 状态 
设 链 具 有 单个 常 返 类 , 一 个 特定 常 返 态 被 首次 访问 
都 证 明了 感 兴趣 的 量 可 以 通过 求解 


的 概率 ), 以 及 平均 首 访 时 间 ( 假 
的 平均 时 间 ). 两 种 情况 下 , 我 们 


生 方程 而 得 到 唯一 解 . 


最 后 我 们 也 考虑 连续 时 间 的 马尔 可 夫 链 . 在 这 类 模型 中 , 给 定 当前 状态 下 , 下 
一 个 状态 由 类 似 于 离散 时 间 的 马尔 可 夫 链 的 相同 机 制 所 决定 . 但 是 , 直到 下 个 转移 


发 生 的 时 间 是 指数 型 随机 变量 , 参数 只 依赖 于 当前 状态 . 连续 时 间 的 马尔 可 夫 链 在 


许多 方面 可 以 类 比 离散 时 间 的 马尔 可 夫 链 . 它们 有 具有 相同 的 马尔 可 夫 性 质 ( 在 给 


定 当前 情况 下 , 未 来 与 过 去 独立 .) 事实 上 , 人 们 可 以 将 连续 时 间 的 马尔 可 夫 链 看 成 
时 间 轴 上 进行 细 分 离散 化 的 离散 时 间 的 马尔 可 夫 链 . 建立 这 个 联系 后 , 连续 时 间 的 
马尔 可 夫 链 与 离散 时 间 的 马尔 可 夫 链 的 稳 态 特 ' 


生 是 相似 的 : 假设 只 有 一 个 常 返 类 ， 


那么 处 于 任何 状态 的 概率 , 当时 间 趋 于 无 穷 的 时 候 都 收敛 于 一 个 稳 态 概率 , 而 且 该 


概率 不 依赖 于 初始 状态 . 稳 态 概率 可 以 通过 求解 平衡 方程 组 和 归 一 化 方程 得 到 . 


7.1 节 ”离散 时 间 的 马尔 可 夫 链 


1. 相 邻 两 个 顾客 陆续 到 达 一 个 机 构 的 时 间 间 隔 是 独立 同 分 布 的 随机 变量 序列 , 其 公共 分 布 


列 为 


构造 一 个 四 状态 马尔 可 夫 链 模型 来 描述 该 到 达 过 程 . 在 这 个 模型 里 , 其 中 一 个 状态 应 该 


与 到 达 发 生 的 时 间 相对 情 


2. 一 只 老鼠 在 走 亡 里 


概率 向 左 (i 一 1) 或 向 


有 2m 块 瓷砖 , m > 1. 在 瓷砖 类 1,2m 时 , 老鼠 就 以 等 
(i 十 1) 移动 . 在 瓷砖 1 或 


2m 时 , 老鼠 就 必定 分 别 移 向 瓷砖 
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2 或 者 2m 一 1. 每 次 , 老鼠 走 到 瓷砖 i< m 或 i > m 时 , 电子 设备 就 会 分 别 发 出 信号 工 


或 者 R. 那么 由 信号 LL 和 R 组 成 的 序列 是 由 状态 L 和 R 组 成 的 马尔 可 夫 链 吗 ? 
3. 考虑 例 7.2 中 如 图 7.2 所 示 的 m = 4 情况 下 的 马尔 可 夫 链 . 假设 过 程 以 等 概率 地 从 4 个 
状态 中 的 任意 一 个 开始 , 当 马 氏 链 处 于 状态 1 或 状态 2 时 , 令 7, = 1, 当 马 尔 可 夫 链 处 
于 状态 3 或 状态 4 时 , 令 友 = 2. 那么 , 过 程 3 是 马尔 可 夫 链 吗 ? 
7.2 节 ”状态 的 分 类 


4. 一 只 蜘蛛 和 一 只 苍 晶 在 一 条 直线 上 以 单位 增 量 移动 , 蜘蛛 总 是 向 苍蝇 移动 一 个 单元 , 而 苍 
昌 以 0.3 的 概率 向 靠近 蜘蛛 方向 移动 一 个 单元 , 以 0.3 的 概率 向 远离 蜂 蛛 方向 移动 一 个 
单元 , 以 0.4 的 概率 保持 在 原 地 不 动 . 里 蛛 和 苍蝇 间 的 初始 距离 是 整数 , 当 蜂 蛛 和 苍蝇 到 
达 同 一 个 位 置 时 , 蜘蛛 就 捉 住 了 苍蝇 . 
(a) 构造 一 个 马尔 可 夫 链 描述 蜘蛛 和 苍 量 之 间 的 相对 距离 . 
(b) 指出 状态 空间 中 哪些 是 非常 返 状 态 , 哪些 是 常 返 状 态 . 
5. 设 有 一 个 马尔 可 夫 链 , 有 状态 1, 2,… ,9. 转移 概率 如 下 : pliz = p17 = 1/2, 当 1i 夭 1,6,9 
时 , piti+1) 二 1, 且 p6l = p91 = 1. 该 马尔 可 夫 链 的 常 返 类 是 有 周期 的 吗 ? 
6.” 常 返 状态 的 存在 性 证 明 : 在 马尔 可 夫 链 中 , 从 任意 一 个 给 定 的 状态 出 发 至 少 可 以 到 达 一 
个 常 返 状 态 , 也 就 是 说 , 对 于 任意 状态 i, 在 从 ;出 发 可 以 到 达 的 状态 集合 4( 中 至 少 存 
在 一 个 常 返 状 态 j. 
解 。 固定 一 个 状态 i 如果 六 是 常 返 的 , 此 时 每 一 个 Je A(i) 也 是 常 返 的 , 结论 成 立 . 如 
果 ; 是 非常 返 的 , 此 时 就 存在 一 个 状态 订 E A(i) 使 得 i 4 40). 如 果 订 就 是 常 返 的 , 那 
我 们 就 已 经 找到 了 一 个 从 i 出 发 可 以 到 达 的 常 返 状态 . 假设 订 是 非常 返 的 , 则 必 有 天 站 
,因为 车 不 然 , 则 由 假设 各 E A(i) 和 i A(1), 而 i 与 和 义 相 同 , 这 样 就 得 到 i € 4 人 
和 i 4 A(i) 这 两 个 相悖 的 结论 . 因为 计 是 非常 返 的 , 必 存 在 某 个 ?2 使 得 io € 4(a) 并 
全 天 4(2). 特别 地 ,ie A( 让 . 如 果 i 是 常 返 的 , 则 结论 成 立 , 所 以 此 时 假设 io 是 非 
常 返 的 , 相同 的 方法 可 以 证 得 羡 取 io. 更 进一步 地 , 我 们 必须 有 io 关 i, 这 是 因为 如 果 我 
门 有 i2 = i, 则 将 得 到 和 € A(i) = A(i2) 的 结论 , 和 假设 ij 4 A(i2) 相 矛 盾 . 将 这 个 过 
程 一 直 继 续 下 去 , 在 第 步 时 , 我 们 将 得 到 一 个 可 以 从 状态 i 出 发 到 达 的 常 返 状态 计 , 或 
得 到 不 同 于 之 前 所 有 状态 区 和 ,is-1 的 非常 返 状态 . 因为 状态 的 个 数 是 有 限 的 ， 
此 , 常 返 状态 必然 会 最 终 达 到 |. 
7.* 考虑 一 个 由 一 些 非常 返 状 态 和 常 返 状态 组 成 的 马尔 可 夫 链 . 
(a) 证 明 : 存在 正 数 c>0 和 0<”<1, 使 得 


= 对 


六 


P(X 是 非常 返 状 态 | Xo = 让 < cy” 对 于 所 有 的 i 和 mn > 1 成立. 


(b) 设 了 表示 使 得 X;, 到 达 常 返 状态 的 第 一 个 时 刻 n, 证 明 : 这 样 的 一 个 时 刻 确实 是 存 
在 的 [等 价 于 , 以 概率 为 1 地 存在 一 个 时 刻 n(n 不 是 一 个 常数 , 与 试验 结果 序列 有 
关 ) 使 得 X 为 常 返 状态 ], 并 且 EIT] < co. 

解 (a) 为 方便 起 见 , 记 


qi(n) = P(X 是 非常 返 状态 | Xo = 


习 题 327 


容易 证 明 , 从 状态 i 出 发 ， 一 定 可 以 找到 步 长 不 大 于 m 的 路 径 (这 里 m 是 指 状态 
个 数 ), 这 些 路 径 以 常 返 状态 为 终点 , 并 且 其 概率 为 正 . 这 些 路 径 不 可 能 以 正 的 概率 
延长 到 一 个 非常 返 状态 . 这 样 , 在 计算 g;(m) 的 时 候 , 要 排除 这 些 路 径 的 概率 , 因此 ， 
有 结论 gi(m) <1. 令 


一 TOaX i (Tn ). 
b 二 1 ds ) 


对 于 所 有 的 i, 都 有 qi(m) < 6 < 1. 如 果 到 时 刻 m 还 没有 到 达 一 个 常 返 状 

态 , 此 事件 发 生 的 概率 至 多 为 8. 在 此 条 件 下 , 在 未 来 m 步 还 不 能 到 达 常 返 状态 的 
条 件 概率 也 同样 至 多 为 8, 也 就 是 说 gi(2m) < 8”, 事实 上 , 我 们 可 以 将 这 个 不 等 式 
形式 地 写 下 来 . 


qi(2m) 二 P(X2m 是 非常 返 状 态 |Xo = 人 


= 囊 。 P(Xzm 是 非常 返 状 态 |[Xm=j,X0= 们 P(Xm=j|Xo= 介 


= > ”P(X2n， 是 非常 返 状态 |Xm = 站 P(Xm = j|Xo = 让 


类 似 地 继续 下 去 , 我 们 有 


qi(km) < 8*， 对 于 所 有 的 i 和 > 1 


令 n 表示 任意 正 整 数 , 上 表示 使 得 km < n < (kk 十 1)m 的 整数 , 我 们 有 


gi(n) < qi(km) < Br* = B71BUT EHD C8-1BYU/™m)®. 


因此 , 取 c= 68-1,x = B1/™ 即 可 获得 想 要 的 关系 . 
(b) 设 4 表示 状态 永远 不 进入 常 返 状态 集合 的 事件 , 使 用 (a) 部 分 得 到 的 结果 , 我 们 有 


P(A) < P(X 是 非常 返 状态 ) < cy” 


因为 这 对 于 所 有 的 n 都 成 立 , 并 且 因 为 Y < 1 我 们 必然 有 P(4) = 0, 这 就 说 明 几 
乎 可 以 肯定 (概率 等 于 1) 第 一 次 到 达 常 返 状态 的 时 间 灾 是 有 限 的 . 这样 便 得 到 
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8.” 常 返 状态 . 证 


a 


其 中 , 最 后 一 个 等 式 是 使 用 了 几何 分 布 均值 的 计算 公式 . 


明 : 如 果 常 返 状态 已 经 被 访问 了 一 次 , 那么 在 将 来 它 被 再 次 访问 的 概率 等 于 


1( 因 此 , 在 将 来 时 间 里 无 限 次 被 访问 的 概率 也 等 于 1). 提示 : 修改 马尔 可 夫 链 , 使 得 感 兴 
趣 的 常 返 状态 是 唯一 的 常 返 状态 , 然后 使 用 习题 7(b) 的 结论 . 


证 明 


Hl 


在 文中 已经 指出 , 常 返 状态 的 集合 可 以 分 解 成 若干 个 互 不 相交 的 常 返 类 , 不 同类 


的 状态 是 互 不 可 达 的 . 设 s 是 一 个 常 返 状态 , 并 假设 s 已 经 被 访问 过 一 次 , 从 那 时 开始 ， 


可 能 的 状态 就 只 


在 s 所 在 的 常 返 类 内 . 因此 , 不 失 一 般 性 , 我 们 假设 只 有 一 个 常 返 类 . 假 


设 目 前 的 状态 是 某 个 i 关 s, 我 们 想 要 证 明 , s 保证 会 在 将 来 的 某 个 时 间 被 再 次 访 


然 ，s 


条 有 着 了 


问 . 


戎 虑 一 个 新 的 马尔 可 夫 链 , 在 原来 的 转移 概率 矩阵 中 将 pss 设 成 1, psi = 0, i s， 
这 样 从 s 状态 不 能 够 转移 出 去 . 对 其 他 状态 i 隆 s, 其 转移 出 去 的 概率 pij 保持 不 变 . 显 


E 概 率 的 路 径 (因为 s 在 原 链 


是 新 链 的 常 返 状态 . 更 进一步 地 , 对 于 任何 状态 i 关 s, 在 原 链 中 从 i 到 s 都 有 


FP 是 常 返 状态 ). 同样 的 结论 在 新 链 中 也 成 立 . 而 在 


新 链 中 从 s 出 发 无 法 到 达 i, 所 以 对 于 新 链 中 的 每 一 个 ; 关 s 都 是 非常 返 状态 . 通过 习题 
状态 s 在 新 链 中 将 以 概率 1 被 最 终 到 达 , 但 是 原始 链 在 s 被 第 一 次 到 达 之 


7(b) 的 结论 ， 


前 与 新 链 是 完全 等 同 的 . 因此 , 在 原 链 中 状态 s 保证 能 被 最 终 到 达 . 重复 这 个 订 
我 们 可 以 得 到 , s 保证 会 以 概率 1 被 无 穷 次 访问 . 


周期 类 . 考虑 


全 


RR 中 的 ; 


一 个 常 返 类 R. 证 明 下 述 一 成 立 . 


大 态 可 以 被 分 为 d > 1 个 不 相交 的 子 集 51,… , Sa, 使 得 Sx 
下 一 步 都 转移 到 S41 中 , 或 者 当天 =d 时 Sx 中 的 所 有 状态 下 一 步 都 转移 到 51 中 


(在 这 种 


情况 下 , R 是 周期 的 ) 


E 明 过 程 ， 


FP 的 所 有 状态 


fe 


(i) 除了 有 限 个 时 刻 外 , 对 所 有 的 时 刻 n 和 所 有 的 i,j € R 都 有 rij(n) > 0( 在 这 种 情况 


下 , R 是 非 周期 的 ). 


F- kh2Q2 十 


提示 : 固定 一 个 状态 i, 并 且 设 d 是 集合 8 = {nlri(n) > 0} 中 元 素 的 最 大 公 因 数 . 如 
果 d = 1, 使 用 如 下 基础 数论 的 事实 : 如 果 正 整数 的 集合 {a1, a2,…} 没有 除 1 以 外 的 
公 因 数 , 则 除 一 个 有 限 集 外 的 任意 正 整 数 n, 均 可 以 表达 为 如 下 形式 : n = kia 1 

一 十 kia, 其 中 后 ,…. ,kz 为 茶 些 非 负 整数 , t 是 某 个 满足 t > 1 的 整数 . 

证 明 ”固定 状态 ie R, 考虑 集合 Q = {nlrii(n) > 0}. 设 d 是 集合 @ 中 元 素 上 


的 最 大 公 


为 数 . 首先 考虑 d 关 1 的 情况 . 对 于 == 1,2,… ,qd, 设 5% 表示 对 于 茶 个 非 负 整数 从 


状态 i 出 发 经 过 Ld 十 及 步 能 到 达 的 所 有 状态 的 集合 . 假设 s € Sk 并 且 psw > 0. 因为 


s E Sj, 所 以 对 某 个 1, 从 状态 i 出 发 经 过 1d 十 步 能 到 达 s, 也 就 是 说 我 们 从 状态 i 出 
发 经 过 1d 十 上 十 1 步 能 到 达 s'. 这 就 证 明了 当 有 <d 时 se Srii, 当 k==d 时 se 51. 
现在 只 剩 下 证 明 集合 51,.… ,Sa 是 互 不 相交 的 . 使 用 反 证 法 . 假设 存在 某 个 有 了 有， 
存在 s 使 得 s€ Sx 且 s€ Sh'. 设 9 表 示 一 条 从 ss 到; 的 正 概率 路 径 的 长 度 . 从 i 出 发 ， 
我 们 经 过 1d 十 步 到 达 s, 再 经 过 g 步 返 回 i. 这 样 就 有 1d 十 天 十 属于 集合 Q, 也 就 是 
说 d 可 以 整除 十 gq, 同 理 可 证 , d 也 可 以 整除 jr 十 gq, 这 样 gd 就 可 以 整除 天- 大 , 但 是 
于 1<]k 一 | <4 一 1, 因此 得 到 矛盾 .9 

现在 考虑 d = 1 的 情况 , 令 Q = {Qi, aQ2,…}, 因为 这 些 都 是 从 i 出 发 再 回 到 i 的 
正 概 率 路 径 的 可 能 长 度 , 因此 具有 形 如 n= ai 十 kzQz 十 … 十 kas 的 任何 整数 nn 也 
在 集合 @ 里 (想得到 这 个 结论 , 用 ki 乘 以 长 度 为 ai 的 路 径 , kz 乘 以 长 度 为 aa 的 路 径 ， 
….). 通过 提示 中 已 给 的 数论 事实 可 知 , 除了 有 限 多 个 正 整数 以 外 , 集合 Q 几乎 包含 全 
体 正 整数 , 即 存在 一 个 ni, 使 得 


rii(n) > 0 对 所 有 的 n > ni 成立. 


固定 某 个 ;7 关 i 且 设 gq 是 从 i 到; 长度 最 短 的 正 概 率 路 径 , 故 g < m, 这 里 m 是 链 中 
状态 的 总 个 数 . 考虑 某 个 满足 > ni 十 m 的 mw 并 注意 到 n 一 qg>ni 十 m 一 gq > ni. 这 
样 , 我 们 就 可 以 经 过 n 一 g 步 从 出 发 回 到 它 自己 , 然后 经 过 g 步 从 i 到 j. 因此 , 只 要 
n>ni 十 m, 从 i 到 7 就 有 rij(n) > 0 对 任意 7 € R 成 立 . 这 个 结论 显然 对 任意 i 都 成 立 . 
故 结论 (ii) 成 立 . 
我 们 至 今 已 经 证 明了 题目 中 的 两 个 结论 至 少 一 个 是 成 立 的 . 这 两 个 结论 显然 不 能 同 
时 成 立 , 这 是 因为 一 个 常 返 类 , 要 么 是 周期 的 , 要 么 是 非 周 期 的 , 两 者 不 能 同时 成 立 . 

为 了 完整 起 见 , 我 们 在 这 里 提供 上 面 用 到 的 数论 事实 的 证 明 . 我 们 从 正 整数 集合 
aiya2,… 开始 , 并 假设 它们 除了 1 外 没有 其 他 的 公 因数 .我 们 定义 M 表示 一 切 具 
有 形式 3;_1 kia 的 正 整 数 的 集合 , 其 中 ki; 表示 非 负 整 数 . 注意 这 个 集合 在 加 法 运算 下 
是 封闭 的 (M 中 的 两 元 素 之 和 也 具有 这 种 形式 , 因此 必定 属于 M). 设 9 表示 M 中 两 不 
同 元 素 的 最 小 差 . 这 样 有 9 > 1, 且 对 于 所 有 的 i 有 g < oi (因为 a; 和 2a 都 属于 M). 

假设 g > 1, 因为 {Qi, a2,…} 的 最 大 公 因 数 为 1, 就 存在 某 个 aix 不 能 被 9 整除 ， 
于 是 对 于 某 个 正 整数 1, 我 们 有 


Qi* 二 lg 十 7， 


其 中 余数 了 满足 0 <r < 9. 进一步 地 , 从 9 的 定义 角度 来 看 , 存在 非 负 整 数 i, k1, ko, 2， 
… ,kt, kt, 使 得 


‘ 2 
$=1 $= 


将 上 式 两 边 同 乘 以 1, 并 利用 方程 aix = lg 十 7, 得 到 
t t 二 


>》 (ki)au 三 >》 (11)as 十 10 二 > (Kg)as 十 Qi* 一 7. 


$s Se te 


@ 由 4d 关 1 可 导 致 马尔 可 夫 链 的 常 返 类 是 有 周期 的 , 并 且 周 期 为 d, 这 个 性 质 与 i€ R 的 取 法 是 无 关 
的 , 即 从 一 开始 随便 固定 一 个 状态 (例如 取 定 7 去 候 , 也 会 得 到 相同 的 结论 . 译 者 注 
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7.3 


10. 


11. 


12. 


13. 


这 就 证 明了 在 集合 M 中 存在 两 个 数 它们 的 差 为 +. 因为 0 < 7 < 9, 这 就 和 我 们 假设 g 
是 最 小 的 可 能 差 值 相 矛 盾 , 因此 也 就 证 明了 g 必须 等 于 1. 

既然 g = 1, 就 存在 某 个 正 整 数 z 使 得 ze M Zz 十 1€ M. 我 们 将 要 证 明 , 每 一 
个 大 于 aaz 的 整数 ”都 属于 M. 事实 上 , 通过 用 ai 去 除 n 我 们 可 以 得 到 n= Kai 十 m， 
其 中 有 x, 且 余 数 7 满足 0 入 rr < al. 我 们 将 m 改写 成 如 下 形式 


为 为 >“z 二 1、 aa 都 属于 M, 这 就 证 明了 是 M 的 元 素 和 , 因此 也 属于 M, 这 样 就 证 
明了 我 们 的 结论 . 


节 。 稳 态 性 质 
考虑 例 7.3 中 机 器 损坏 和 维修 的 两 个 模型 . 求 马尔 可 夫 链 含有 单个 非 周期 常 返 类 时 b 和 


7 应 满足 的 条 件 , 并 在 这 个 条 件 下 求 出 稳 态 概率 的 闭合 式 表达 式 . 

位 教授 进行 的 测试 分 为 难 、 中 等 、 容 易 三 类 . 如 果 她 给 出 的 是 难 的 测试 , 那么 下 一 次 测 
试 的 难度 将 是 中 等 难度 或 者 是 容易 的 , 并 且 这 两 种 难度 出 现 的 概率 是 相等 的 . 但 是 , 如 果 
她 给 出 的 是 中 等 难度 的 测试 题 或 者 是 容易 的 测试 题 , 则 下 一 次 测试 将 以 0.5 的 概率 依然 
保持 此 难度 , 以 0.25 的 概率 分 别 采 用 其 他 两 种 难度 的 测试 . 构造 一 个 合适 的 马尔 可 夫 链 ， 
计算 稳 态 概率 . 
阿尔 文 喜欢 在 每 个 星期 六 出 海 去 附近 的 小 咏 上 的 别墅 . 他 很 喜欢 钓鱼 , 只 要 天 气 好 , 他 会 
在 来 回 小 岛 的 路 上 钓鱼 . 但 是 , 在 来 回 小 岛 的 路 上 天 气 好 的 概率 只 有 p, 并 且 独 立 于 过 去 
航行 的 天 气 情况 (所 以 天 气 可 能 在 去 的 时 候 很 好 , 但 是 回来 的 时 候 很 不 好 ). 如 果 天 气 很 
好 的 话 , 阿尔 文 会 带 着 他 n 支 汐 笔 中 的 一 支 , 但 是 如 果 天 气 不 好 的 话 , 他 就 不 会 随身 携带 
渔 竿 . 我 们 想 求 出 在 给 定 一 段 来 小 岛 (或 者 从 小 岛 回 家 ) 的 旅途 中 , 天 气 很 好 但 是 阿尔 文 
因为 他 的 渔 笔 都 在 男 一 个 房子 而 没有 钓鱼 的 概率 . 

(a) 计算 每 个 有 着 nn 十 1 个 状态 的 合适 的 马尔 可 夫 链 , 并 计算 各 状态 的 稳 态 概率 . 

(b) 在 给 定 行程 的 条 件 下 , 求 阿 尔 文 在 好 天 气 出 海 却 没有 带 汐 竿 的 稳 态 概率 . 

考虑 如 图 7.22 所 示 的 马尔 可 夫 链 , 我 们 将 转移 到 一 个 高 ( 低 ) 指标 状态 称 为 “< 生 ”(“ 死 ”). 
假设 在 我 们 开始 观测 这 个 链 时 它 就 已 经 平稳 了 , 计算 如 下 各 个 量 . 


0.3 0.2 
图 7.22 习题 13 中 的 转移 概率 图 


(a) 对 于 每 个 状态 i, 求 当前 状态 是 i 的 概率 . 
(b) 求 我 们 观测 到 的 第 一 次 转移 是 “ 生 ” 的 概率 . 


14. 


15. 


16. 


17. 


18. 


19.” 


习题 331 
(c) 求 我 们 观测 到 的 第 一 次 状态 变化 是 “ 生 ” 的 概率 .8 
(d) 在 转移 是 “ 生 ” 的 条 件 下 , 求 在 我 们 观测 到 的 第 一 次 转移 之 前 过 程 位 于 状态 2 的 概 
率 . 
(e) 在 状态 变化 是 “ 生 ” 的 条 件 下 , 求 在 我 们 观测 到 的 第 一 次 状态 变化 之 前 过 程 位 于 状 
态 2 的 概率 . 
(f) 在 第 一 次 观测 到 的 转移 造成 了 状态 改变 的 条 件 下 , 求 第 一 次 转移 是 “ 生 ” 的 概率 . 
(g) 在 第 一 次 观测 到 的 转移 造成 了 状态 改变 的 条 件 下 , 求 第 一 次 转移 到 状态 2 的 概率 . 


考虑 一 个 已 知 转移 概率 并 且 含 有 单一 非 周 
步 转移 概率 非常 接近 于 平稳 状态 概率 . 

(a) 求 PCXiooo = j,Xi001 = k, X2000 = 1 
(b) 求 P(X1000 一 i X1001 刀 的 近似 计算 公式 。 
埃 伦 费 斯 特 扩 散 模 型 . 我 们 总 共有 7 个 球 
时 间 点 上 , 我 


被 选中 的 概率 为 (1 一 e)/n > 0. 在 后 一 种 情况 下 , 我 们 将 所 选 球 的 颜色 改变 ( 


的 , 黑 的 变 成 
伯 努 利 - 拉 普 拉 斯 扩散 模型 . 两 


的 ), 过 程 就 这 样 无 穷 地 重复 下 去 . 问 : 白 


,其 中 一 部 分 为 黑 球 ,一 部 分 为 
站 或 者 以 概率 e(0 < 。 < 1) 什么 也 不 做 ,或 者 随机 选 一 个 球 , 使 得 每 一 个 球 


个 坛子 中 的 每 一 个 都 有 m 个 小 球 . 2m 个 小 球 中 , 有 mm 


期 常 返 类 的 马尔 可 夫 链 . 假设 对 于 n > 500, n 


Xo = 匀 的 近似 计算 公式 . 


球 . 在 每 一 个 


白 的 变 成 黑 
什么 ? 


球 个 数 的 稳 态 分 布 是 


个 是 白 球 , m 个 是 黑 球 . 同时 从 两 个 坛子 中 拿 出 一 个 球 放 入 另 一 个 坛子 中 过 程 
持续 下 去 , 问 每 个 坛子 中 白 球 个 数 的 稳 态 分 布 是 什么 ? 
考虑 一 个 两 状态 (分 别 记 为 1 和 2) 的 马尔 可 夫 链 , 转移 概率 为 
pli1=1—Q, 2D12 三 0 
p21=6, p22=1—b, 
其 中 a 和 6 满足 0<a<1,0<6<1l. 
(a) 证 明 : 链 中 的 两 状态 形成 了 一 个 非 周 期 常 返 类 . 
(b) 使 用 归纳 法 证 明 , 对 于 所 有 的 n, 我 们 有 
rl) — a | 0 a 0 
ral = 3 rn) = s+ 3 
(c) 稳 态 概率 ri 和 x2 是 多 少 ? 
MIT 的 停车 库 安 装 了 一 个 磁卡 门 , 但 不 笠 的 是 , 由 于 人 们 的 粗心 , 门 非常 容易 出 现 问题 . 
具体 来 说 , 每 天 一 辆 车 撞 门 的 概率 为 p, 并 且 在 这 种 情况 下 就 需要 安装 一 个 新 门 . 同样 ， 
门 在 坚持 了 m 天 之 后 由 于 周期 性 的 维修 必须 进行 替换 . 问 : 门 更 换 频率 的 长 期 期 望 是 多 
少 ? 
稳 态 收敛 . 考虑 一 个 含有 单个 常 返 类 的 马尔 可 夫 链 , 并 且 假设 存在 一 个 时 刻 元 使 得 : 对 


于 所 有 的 i 和 所 有 常 返 态 上 


9 7 


Tij (万 ) 0: 


四 “状态 转移 ” 是 指 从 状态 i 转移 到 状态 j, 但 是 i 与 9 可 以 相同 ;“ 状 态 变 化 ”是 指 从 状态 i 变化 到 


状态 j, 这 时 状态 i 与 j 一 定 不 同 . 译 者 注 


332 


第 7 


章 马尔 可 夫 链 


(这 和 假设 “ 常 返 类 是 非 周 期 的 ”是 等 价 的 ). 我 们 想 证 明 : 对 于 任意 的 ;和 7 极限 


lim ri;(n) 
也 一 OO 


不 依赖 于 i. 为 了 证 明 这 个 结论 , 我 们 需要 证 明 初 始 状态 的 选择 没有 长 期 效应 . 要 


存在 ， 

量化 这 个 效应 , 我 们 考 

和 于, 它们 

min{n|Xn = Yh} 表示 

(a) 证 明 存 在 正常 数 c 和 ~y < 1, 使 得 


(b) 训 


(ec) 订 


虑 两 个 不 同 的 初始 状态 ;和 及 并 考虑 两 个 独立 的 马尔 可 夫 链 Xv 
有 相同 的 转移 概率 ,但 是 初始 状态 不 一 样 ，Xo = i, 如 = 大 令 了 = 


E 明 对 所 有 的 ij、k、n, 都 有 |rij(n) 一 Tj(n)| < cy”. 提示 : 分 别 计算 在 两 导 
{TT>n} 和 {Tg< n} 的 条 件 下 的 条 件 概率 . 


个 链 第 一 次 到 达 同 一 状态 的 时 间 . 


P( 人 >m) 所 cn 


E 明 如 果 在 时 刻 以 前 某 个 时 刻 ( 含 n) 两 个 链 的 状态 是 相同 , 则 它们 在 时 刻 n 的 
状态 概率 也 相同 , 即 


P(X, = jT <n)=P(Y,=jT <n). 


ha 
ul 
fF 


(d) 设 qf (n) 二 maxi7ij(n),97 (n) = mini7ij(n), 证 明 : 对 所 有 的 n, 有 


(e) 订 


do (n) < qi (n+1) < qf (n+1) < qf (n). 


E 明 序列 7;; 收敛 于 一 个 不 依赖 于 i 的 极限 . 提示 : 综合 (c) 和 (d) 两 部 分 的 结论 ， 


证 明 两 序列 q+ (n) 和 g (n) 是 收敛 的 , 并 且 极限 相同 . 


证 明 (a) 此 结论 与 习题 7 中 计算 直到 到 达 常 返 状态 所 需 时 间 的 分 布 列 的 上 界 是 相似 的 . 


(b 


— 


设 1 是 某 个 常 返 ， 


大 态 , 定义 6 = mini ra(7) > 0. 无 论 现在 链 X 和 Yi 的 状态 是 


什么 , 在 元 步 后 


类 似 地 , 可 得 


这 就 证 明了 


其 中 , y = (1 一 


链 都 处 于 状态 ! 的 概率 至 少 为 B82. 这 样 ， 
P(T>7T)<1- 8. 


P(T >275)=P(T >7NP(T > 27|T >7) < (1 -6°), 


P(T > tn) < (1 — 68°)*, 


P(T>n)<cey 


pm c=1/(1— 2)™. 
我 们 分 别 在 了 可 能 的 取 值 上 以 及 两 链 在 时 刻 并 时 的 共同 状态 1 下 取 条 件 化 , 使 用 


全 概率 公式 , 我 们 有 


P(Xn=jT Sn)= > >》 P=jT=t X=D)PT=t, X=lT <n) 


= OY PX,=jX =D)PT=t, X= Tn) 


= > rom t)P(T=t, X= UT < n). 


(c) 


(d) 


(e) 


类 似 地 


PO =jT <n)= rn- dPT=t, = gn). 


0s 


但 是 事件 {T= ,Xi = 中 和 {T=t,Y = 中 } 是 等 同 的 , 因此 具有 相同 的 概率 , 也 
就 是 说 , P(X = jT <n)=P(Y, = jlT < n). 
我 们 有 


rij(n)= P(Xn=7)=P(Xn=jT <n)P(T <n)+P(X, = IT >n)P(T >n), 


ri(n) =P(Y, =)) =P(Y, =jT < n)PT < n) +PY, =jT >n)P(T >n), 
将 上 述 两 式 相 减 , 使 用 (b) 部 分 的 结论 消去 右边 的 第 一 项 , 我 们 得 到 


[rii(n) 一 rp 入 POCO = HT >n)P(T>n)-P(W= Ij >n)P(T >n)| 
<P(T>n,) 
和 CT “. 


通过 对 第 一 次 转移 的 状态 取 条 件 化 , 使 用 全 概率 公式 , 我 们 得 到 如 下 查 普 曼 - 科 尔 
莫 戈 罗 夫 方程 的 另 一 种 形式 


rij( 7 十 1) = Dar 


使 用 这 个 等 式 , 我 们 得 到 


qi (n+1)= maxri(n + 1)= max > Pirki(n) < max > ,pig (n) = qi (n). 
w=1 WaT 
利用 对 称 性 可 得 不 等 式 oj (n) < oj (n 十 1), 由 定义 直接 可 以 得 到 oj (n 二 1) < 
十 
qi (n 亚 1). 

于 序列 oj (n) 和 gi (n) 对 n 的 单调 性 , 当 n 一 ce 时 , 这 两 个 序列 是 收敛 的 . 对 
于 所 有 的 i 和 %k, 不 等 式 |riy(n) 一 rkj(n)| < cy” 可 以 推出 qj (n) 一 gj (n) < cy”. 
令 n 一 co, 由 这 个 不 等 式 可 知 oj (n) 和 qj (n) 的 极限 是 一 样 的 . 令 zx; 表示 这 个 
共同 的 极限 . 因为 oj (n) < rj(n) < 叶 (n), 因而 ri(n) 也 收敛 于 xtj, 并 且 极限 独 


于 i 


20.” 平 衡 方程 组 解法 的 唯一 性 . 考虑 一 个 具有 单个 常 返 类 并 且 附 加 一 些 非常 返 状态 的 马尔 可 


夫 链 . 
(a) 


(b) 


假设 常 返 类 是 非 周 期 的 , 证 明 平衡 方程 组 加 上 归 一 化 方程 存在 唯一 非 负 解 . 提示 : 
给 出 一 个 不 同 于 稳 态 概率 的 解 , 使 得 它 是 Xo 的 分 布 列 并 且 考 虑 当时 间 趋 于 无 穷 时 
的 情况 . 
证 明 在 (a) 部 分 的 唯一 解 的 结论 在 周期 性 的 常 返 类 的 情形 下 依然 成 立 .提示 : 引入 
i 这 样 可 以 产生 等 价 的 一 些 平衡 方程 组 , 再 运用 (a) 部 分 的 
结论 
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21. 


证 明 (a) 设 ri ,rm 是 稳 态 概率 , 即 rij(n) 的 极限 . 它们 满足 平衡 方程 组 和 归 一 化 
方程 . 假设 存在 另 一 组 非 负 解 元 , .…, m. 我 们 通过 这 些 概率 建立 马尔 可 夫 链 , 医 
而 对 于 所 有 的 j, 有 P(Xo = 妃 = 元 由 文中 的 讨论 , 我 们 得 到 在 各 个 时 间 点 都 有 
P(X = 力 = 元 . 因此 ， 


= 


(b) 考虑 一 个 新 的 马尔 可 夫 链 , 其 转换 概率 jb;; 如 下 给 出 


pii= (1— oa)pita, pi;= (1— a)pij, 7 Ki. 


这 里 a 满足 0 < a < 1. 这 个 新 的 马尔 可 夫 链 的 平衡 方程 组 表达 式 为 


mj =((1 一 ap 十 十 >》 mL 一 oa)piy 
5 


即 


(1— on; =(1-o) > TDi 


这 些 方式 和 原 链 的 平衡 方程 组 是 等 价 的 . 注意 , 新 链 是 非 周期 的 , 原因 是 自我 转移 
天 | 


有 正 概率 . 这 就 为 新 链 建 立 了 平衡 方程 组 的 唯一 解 , 这 对 原 链 同 样 适用 . 


”平均 长 期 频率 的 解释 . 考虑 一 个 非 周 期 的 单一 常 返 类 马尔 可 夫 链 . 证 明 : 


和 全 对 所 有 的 7 二 1.… ,rm 都 成 立 ， 


这 里 xj 是 稳 态 概率 , viy(n) 是 指 在 头 n 次 转移 中 从 状态 i 开始, 到达 状 态 j 的 平均 
访问 次 数 . 提示 : 使 用 以 下 分 析 的 事实 ， 如 果 数 列 a 收敛 到 实数 a, 那么 定义 为 5 = 
(1/n) 学 ?aw 的 序列 如 也 同样 收敛 到 a 

证 明 ”我 们 首先 证 明 对 于 所 有 的 n、i、 j, 有 


vi(n) = > ria(k). 


为 了 更 明白 这 点 , 注意 到 


Vij (n) 一 卫 


>》 hlXo = | 
Rs 


和 Xi 二 7 时 取 1, 其 他 情况 下 取 0, 于 是 


Ik 


这 里 I 是 随机 变量 


El[lli|Xo 一 让 一 人 好 (k). 


22.” 


又 因为 


Nn Nn 


i Drij(k), 


Tij(k) 收敛 到 zj;, 这 表明 vij(n)/n 同样 收敛 到 rj, 这 就 是 我 们 希望 的 结果 . 

为 了 完整 性 , 我 们 同样 证 明 在 提示 中 给 出 的 事实 ( 它 在 上 面 讨论 的 最 后 一 步 中 用 到 ). 
考虑 一 个 序列 an 收敛 到 a, 并 设 6b = (1/n) > 和 ax. 固定 某 个 e > 0, 因为 an 收敛 到 
a, 所 以 存在 某 个 no 使 得 对 所 有 的 大 > no, ak < a 十 (e/2). 再 令 c = maxk ax. 我 们 得 到 


0 n 
1 no 7 一 70 
bn= at ) arg Tet”— ( ) 
k=1 k=no+1 


当 n 趋 于 无 穷 时 ,上 式 右 边 的 极限 是 a + (e/2). 因此 , 存在 某 个 m1 使 得 当 n > ni 时 ， 
有 bn < a 十 e. 运用 对 称 的 论证 , 存在 某 个 nz 使 得 当 n > ma 时 , 有 bn > a 一 e. 我 们 
已 经 证 明 对 任意 的 e > 0, 存在 某 个 na( 比 如 , ns = max{mn1,n2}), 使 得 对 所 有 的 n > ns， 
有 |b% 一 a| < 6. 这 表明 如 收敛 到 a. 

二 重 随机 矩阵 .考虑 一 个 非 周期 的 单一 常 返 类 马尔 可 夫 链 , 且 转 换 概率 和 矩阵 是 二 重 随机 
的 . 也 就 是 说 它 每 一 列 或 每 一 行 的 元 素 和 为 1, 因此 有 


>》 pi = 了 7 ye ,Mm. 
#4 


(a) 证 明 例 7.7 中 链 的 转换 概率 矩阵 是 二 重 随机 的 
(b) 证 明 其 稳 态 概率 是 
而 一 二 ， 了 = 
(e) 假设 这 个 链 的 常 返 类 是 周期 的 .证 明 mi 二 … = mm = 1/m 是 这 个 由 平衡 方程 组 


和 归 一 化 方程 组 成 的 方程 组 的 唯一 解 . 在 例 7.7 的 条 件 中 当 m 是 偶数 时 讨论 你 的 
答案 . 

证 明 (a) 很 明显 地 , 本 例 中 的 转换 概率 矩阵 的 每 一 行 和 每 一 列 的 和 均 为 1. 

(b) 我 们 有 


对 此 给 定 的 概率 x; = 1/m 满足 平衡 方程 组 , 它 必 定 是 稳 态 概率 . 
(c) 令 (mm ,Tm) 是 平衡 归 一 化 方程 的 任意 一 组 解 . 考虑 一 个 特别 的 j, 使 得 对 于 所 
有 的 有 > zi, 令 gq = 7 在 状态 7 时 平衡 方程 满足 


d= = Mipyj Sq p= 0, 
出 站 
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这 里 的 最 后 一 步 能 够 成 立 是 因为 转移 概率 矩阵 是 二 
事实 上 是 一 个 等 式 即 


| 四 


随机 的 . 这 表明 以 上 的 不 等 式 


> rip = > gp 
4 $= 


于 对 所 有 的 i 有 zi < gq, 我 们 得 到 对 所 有 的 i 有 zipi; = 9pi;, 因此 对 每 一 个 可 能 
转移 到 7 的 状态 i 有 zi = g. 既然 所 有 满足 pi; > 0 的 状态 i, 均 有 zi = g, 重复 
这 一 过 程 , 可 知 所 有 满足 pz > 0( 此 处 i 满足 pi; > 0) 的 状态 4, 均 有 zi = g, 即 所 
有 两 步 能 到 达 状 态 7 的 状态 , 其 相应 的 稳 态 概率 为 g. 进而 我 们 发 现 对 于 每 个 状态 
i 当 存 在 一 个 从 i 到 7 的 非 负 的 概率 路 径 时 , 就 有 ri = gq. 因为 所 有 状态 都 属于 同 
一 个 周期 类 , 因此 所 有 的 状态 i 都 有 这 一 特性 , 对 所 有 的 i, zi 都 是 一 样 的 . 因为 rr 
的 和 为 1, 所 以 我 们 得 到 对 所 有 的 i 有 zi = 1/m. 
例 7.7 中 如 果 m 是 偶数 , 链 的 周期 是 2. 我 们 得 到 的 结果 表明 : x; = 1/m 确 
实 是 这 个 平衡 方程 组 和 归 一 化 方程 组 成 的 方程 组 的 唯一 解 . 

23.” 排队 问题 . 考虑 例 7.9 中 的 排队 问题 , 但 是 假设 信息 的 到 达 和 发 送 的 概率 是 取决 于 排队 的 

状态 本 身 . 特别 地 , 在 每 一 段 时 间 里 , 在 节点 处 有 i 个 信息 包 , 那么 以 下 三 种 情况 中 会 有 


(i ) 一 个 新 信息 到 达 , 发 生 的 概率 是 bi;. 我 们 假定 i<m 时 b>0 而 b=0. 

(站 ) 一 个 现存 的 信息 发 送出 去 , 发 生 的 概率 是 di, 当 i>z 1 时 qd;>0, 当 i=0 时 4d;=0. 

( 填 ) 既 没 有 新 信息 到 达 , 也 没有 信息 完成 传送 . 发 生 的 概率 是 : 当 i > 1 时 概率 为 1 一 
bi; 一 di, 当 i = 0 时 概率 为 1 一 bi. 

计算 对 应 马尔 可 夫 链 的 稳 态 概率 . 

解 ”我 们 引入 一 条 马尔 可 夫 链 , 状态 为 0, 1,…, m, 它们 分 别 对 应 在 节点 上 存放 的 信息 

总 数目 . 转换 概率 图 如 图 7.23 所 示 . 


1—% 1 一 总 一 全 i 全 1 IT 一 如 
| bo On!1 () 
LP 1 人 


图 7.23 习题 23 中 的 转移 概率 图 


与 例 7.9 类 似 , 局 部 平衡 方程 组 如 下 : 
Tibi = Tit1ditl, 7 = 0,1,.…: ,mC—1. 


此 我 们 有 ri+i=piri， 其 中 


六 


因此 对 = 1,… ,mm 有 关 ii=(p0.…pi 1)ro. 再 由 归 一 化 方程 1 = ro 十 Ta 十 … 十 rm) 我 
门 得 到 
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24.” 


25.” 


1 = 二 Axo(1 十 po 十 popi 十 … 十 po*…pm-1)， 


此 得 到 


T0 一 。 
” ITpo 二 popl 十 :十 00pm_l 


料 
[EE 
写 
从 
这 
划 
医 
FL 


0 Pi—1 : 
Ni 二 和 EE ;yD 


1 二 po 十 popi 十 … 十 po*…*Ppm-l 
平衡 方程 之 间 的 相依 性 . 对 于 前 mC— 1 个 平衡 方程 nT; 二 i TEPkj, I 一 1， ,mC 1, 
证 明 将 它们 加 起 来 , 则 能 得 到 最 后 一 个 方程 rm = 并 亿 ，mkphm。 
证 明 ”把 前 mm 一 1 个 平衡 方程 加 起 来 , 我 们 得 到 


这 个 方程 和 最 后 一 个 平衡 方程 rm = R17Tkpkm 是 等 价 的 . 
局 部 平衡 方程 . 我 们 给 出 一 个 非 周期 的 单一 常 返 类 的 马尔 可 夫 链 , 假设 mi…… ,rm 是 下 
面 的 局 部 平衡 和 归 一 化 方程 组 的 一 组 解 . 


Mipij = Typjiy b,j = 1 ,Mm, 


m™m 
Si=1, i=1,..,m. 
=1 


(a) 证 明 ri 是 稳 态 概率 . 

(b) 利用 i,j 之 间 的 平均 长 期 转移 频率 的 意义 来 解释 方程 mpij = Tjp;i 的 含义 . 
(c) 构造 一 个 例子 , 使 得 局 部 平衡 方程 组 不 满足 稳 态 概率 . 

解 (a) 把 局 部 平衡 方程 ripij = Tjpyi 对 下 标 i 相 加 , 得 到 


m m 


> Tipij 一 》 TITD 和 ii 二 7 J le ) 772， 


间 二 汪 el 


因此 zj(j = 1,… ,m) 满足 平衡 方程 . 所 以 它们 就 等 于 稳 态 概率 . 

(b) 我 们 知道 xipiy 可 以 解释 为 从 状态 i 到 状态 7 的 平均 长 期 频率 , 所 以 局 部 平衡 方程 表 
明 从 一 个 状态 到 另 一 个 状态 的 转移 , 其 长 期 平均 频率 与 反方 向 转移 的 长 期 平均 频率 是 
相同 的 (这 个 性 质 也 叫 作 链 的 时 逆 性 ). 
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(c) 我 们 构造 有 三 个 状态 的 一 个 例子 ， 设 状态 为 1、2、3. 同时 令 p12 > 0, p13 > 0， 
p21 > 0, p32 > 0, 同时 其 他 转移 概率 均 为 0. 这 条 链 有 一 个 非 周 期 的 单一 常 返 类 . 此 
时 局 部 平衡 方程 组 不 能 成 立 因 为 1 到 3 的 平均 转移 频率 都 是 正 的 , 但 逆转 移 频率 的 
期 望 值 是 0. 
26.“ 抽样 马尔 可 夫 链 . 考虑 一 个 马尔 可 夫 链 X, 其 转移 概率 是 pij, 记 rij(n) 是 n 
概率 . 
(a) 证 明 对 所 有 的 郊 > 工 以 及 /> 了 我们 有 


Na 
Re 


移 


LA (n+)) -> Tip (nN )rgj(! 


(b) 假设 有 一 个 非 周期 的 单一 常 返 类 .我们 对 这 条 马尔 可 夫 链 所 有 每 隔 1 个 转移 取样 ， 
此 得 到 过 程 7,, 其 中 六 , = Xim. 证 明 这 个 取样 过 程 能 用 一 个 非 周期 的 单一 常 返 
类 马尔 可 夫 链 刻画 , 而 且 转 移 概 率 为 rij(1). 

(c) 证 明 (b) 部 分 中 的 马尔 可 夫 链 和 原 过 程 有 同样 的 稳 态 概率 . 

证 明 (a) 我 们 在 X;, 的 条 件 上 使 用 全 概率 定理 . 我 们 得 到 


7ij( 十 四 二 P(Xn+ = fjXo = 


= P(Xn = kXo=iP(Xnt = Xn = k, Xo =i) 


及 一直 

= >》 P(Xn = kXo=iP(Xnt = Xn = A) 
= 

= > rir (mres()), 
太一 志 


在 第 三 个 等 式 中 我 们 用 到 了 马尔 可 夫 性 质 . 
(b) 因为 Xn。 是 马尔 可 夫 链 , 所 以 , 在 给 定 Xi 的 条 件 上 , 那么 过 程 的 过 去 (k < in 时 
的 状态 X) 与 将 来 的 状态 (k > in 时 的 状态 Xs) 是 独立 的 . 这 表明 给 定 的 攻 ， 
过 程 的 过 去 (k < n 时 的 状态 丈 ) 与 其 将 来 (kX > n 时 的 状态 丈 ) 是 独立 的 . 因此 
Yn 有 马尔 可 夫 性 质 . 又 由 对 X 的 假设 , 存在 一 个 时 间 元 使 得 : 对 所 有 的 n 之 元 、 
所 有 的 状态 i 以 及 所 有 的 在 X 的 单一 常 返 类 R 中 的 状态 j, 均 有 


P(X = jlXo =i) >0. 


这 表明 
P(Y, = jl =i)>0 


对 所 有 的 n 之 元 、 所 有 的 i 以 及 所 有 的 je€ RR 成 立 . 因此 过 程 Y, 有 一 个 非 周期 的 


常 返 类 . 


(c) 过 程 X 的 n 步 转换 概率 rij(n) 收敛 到 稳 态 概率 xj;. 过 程 Y, 的 n 步 转换 概率 

形式 为 rij(in), 同样 收敛 到 tj. 这 表明 mj 是 过 程 Y 的 稳 态 概率 . 

27.” 给 定 一 个 非 周 期 的 单一 常 返 类 马尔 可 夫 链 Xn, 考虑 一 个 新 的 随机 变量 序列 , 序列 在 时 刻 
n 时 状态 为 (Xn-1, Xn). 新 链 的 状态 是 原 链 的 状态 再 加 上 前 一 个 时 刻 的 状态 . 


(a) 证 


明 新 链 的 稳 态 概率 是 


Mij = Tipij, 


这 里 zi 是 原 链 的 稳 态 概率 . 


(b) 现在 设 新 的 马尔 可 夫 链 是 这 样 定 义 的 : 在 时 刻 n 的 状态 为 (Xn-k, Xn_k41,… ,Xn)， 


其 ) 


状态 和 上 原 链 的 连续 步 转移 建立 起 联系 . 将 (a) 的 结论 


佳 广 到 这 个 新 的 马尔 可 夫 


链 . 
解 (a) 对 新 链 的 每 一 个 状态 (i,j), 我 们 有 
因为 马尔 可 夫 链 X* 有 一 个 非 周期 的 单一 常 返 类 , 并 且 对 所 有 的 i, P(Xn-1 三 让 收 
敛 到 稳 态 概率 x;， 这 表明 P(CX 1 Xn) = (i 让) 收敛 到 zipij, 这 同样 是 (i,7) 的 
(b) 使 用 乘法 法 则 , 我 们 得 到 


RP(( 六 祝 庆 Ee 


28. 某 系 有 m 门 课 ， 


四 


这 个 排名 是 完全 随机 的 . 因此 , 每 一 学 年 任意 一 门 课 程 的 排名 
均匀 分 布 (但 是 , 两 门 课程 的 难度 排名 不 可 能 相同 ). 某 教授 只 记 


最 高 的 排名 . 
(a) 求 这 个 教 


(b) 求 常 返 状态 和 非常 返 状态 . 
(c) 给 定 第 一 学 年 他 拿 到 第 i 名 课程 的 条 件 下 , 求教 授 拿 到 最 高 排名 课程 的 共 
29. 考虑 图 7.24 中 的 马尔 可 夫 链 . 稳 态 概率 如 下 : 


受 记 住 的 提 


FE 名 的 马尔 可 夫 链 的 转移 概率 . 


6 


9 


住 他 教 过 的 


10 


T1 


T2 T3 


3 


31) 


假设 过 程 在 第 一 次 转移 前 是 状态 1. 
(a) 经 过 六 次 转移 后 过 程 状态 是 1 的 概率 是 多 少 ? 


(b) 求 过 程 重新 


回 到 状态 1 的 总 转移 次 数 的 


31 


29 中 的 转移 概率 图 


期 望 值 和 方差 ， 


其 中 排 m 的 最 难 . 但 


,Xn) = (os ,ix)) = P(Xnp = io)pioi Di ai， 

因此 , 与 (a) 部 分 相 类 似 的 讨论 , 状态 (io,… , 计 ) 的 稳 态 概率 为 riopioi … Pin_iin: 
7.4 节 ”吸收 概率 和 吸收 的 期 望 时 让 
每 一 学 年 学 生 将 课程 难度 从 1 到 m 进行 排名 ， 


.…,m 上 的 
课程 中 难度 
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(c) 系统 中 的 转移 1 000 次 之 后 的 状态 既 不 与 转移 999 次 后 的 状态 相同 , 也 不 与 转移 
1 001 次 后 状态 相同 , 求 该 事件 概率 的 近似 值 . 
30. 考虑 图 7.25 中 的 马尔 可 夫 链 . 


图 7.25 习题 30 中 的 转移 概率 图 


(a) 确定 非常 返 状态 和 常 返 状态 . 同样 , 将 常 返 状态 划分 为 常 返 类 , 如 果 有 周期 的 话 , 也 
将 其 指明 . 


(b) 在 状态 1 开始 时 是 否 存 在 稳 态 概率 , 如 果 有 , 请 确定 其 值 . 
(c) 在 状态 6 开始 时 是 否 存在 稳 态 概率 , 如 果 有 , 请 确定 其 值 . 
(d) 假设 过 程 在 状态 1 开始 , 我 们 在 它 到 达 稳 态 时 开始 观察 . 
i ) 在 我 们 观察 到 第 一 次 转移 时 , 求 状态 增加 1 的 概率 . 
ii) 在 我 们 观察 到 第 一 次 转移 状态 是 增加 1 的 条 件 下 , 求 观察 到 过 程 转移 到 状态 2 
时 的 条 件 概 率 . 
(过 ) 在 我 们 第 一 次 观察 到 状态 变化 时 , 求 状态 增加 1 的 概率 . 
(e) 假设 过 程 从 状态 4 开始 . 
(i) 对 每 一 个 常 返 类 , 确定 我 们 最 终 达 到 每 一 类 时 的 概率 . 
(站) 求 过程 第 一 次 达到 常 返 类 时 的 转换 总 次 数 的 期 望 值 . 
吸收 概率 . 考虑 一 个 马尔 可 夫 链 , 其 状态 要 么 是 非常 返 的 , 要 么 是 吸收 的 . 固定 一 个 吸收 
状态 s. 证 明 从 状态 i 开始 最 终 达到 s 状态 时 的 概率 a; 是 以 下 方程 组 的 唯一 解 . 


类 


31. 


as 一 1|， 
ai 一 0， 对 所 有 的 吸收 态 ? 夭 s， 


Qi = > 7 PijQy, 对 所 有 的 非常 返 状 态 i. 
提示 :在 证 明 解 的 唯一 性 的 时 候 , 采用 反 证 法 : 如 果 这 里 有 两 个 解 , 找到 一 个 满足 它们 差 
的 方程 , 然后 说 明 这 个 方程 具有 零 解 . 
证 明 ”在 本 书 中 , 通过 全 概率 定理 , 已 经 指出 ai 满足 这 些 方程 . 为 了 证 明 唯 一 性 , 令 a; 
是 另 一 组 解 , 再 令 6; = 6 -ai. 用 4 表示 吸收 状态 集合 . 由 于 对 所 有 7 ce 4 有 65; =0， 
我 们 得 到 


0i 一 >》 pio 二 > pij6; 对 所 有 的 非常 返 状态 i 成 立 . 
j=1 jgA 
把 这 个 关系 套用 m 次 , 我 们 得 到 


0i 一 >， DPij1 DD pjij2 DD Pjm—1jm * Ojm. 


j1¢A j2¢A jm¢A 


32.” 


33.” 


[Gl< >》 pa pi >》 pim jm |67ml 
J1¢4 j2¢A jm¢A 
=P(X1 ¢ A,.… ,Xm ¢ 4|Xo 一 i) “ |6jm | 


SP(X1 ¢ he ,Xm ¢ ALXo = mgx il. 
2 


以 上 关系 对 所 有 非常 返 状态 i 均 成 立 , 所 以 


0j| 芝 0. 07 
max| jp max | 让 ， 


B=P(Xi ¢ A,... ,Xn ¢ AlXo =i). 


注意 6 < 1, 因为 不 管 初始 状态 是 什么 , Xj 被 吸收 的 概率 是 正 的 . 因此 maxjg a 16;| = 0， 
也 就 是 对 所 有 的 不 吸收 的 i 有 ai = a. 对 所 有 的 吸收 7 我 们 有 oj = a;, 所 以 对 所 有 的 
1 有 ai = ai. 

多 重 常 返 类 . 考虑 一 个 有 多 个 常 返 类 的 马尔 可 夫 链 , 当然 还 有 一 些 非 常 返 状态 . 假设 所 
有 的 常 返 类 都 是 非 周期 的 . 
(a) 对 任意 非常 返 状 态 i 令 ai(k) 是 从 宇 开 始 到 达 第 大 个 常 返 类 中 状态 的 概率 . 推导 关 
于 ai(k) 的 方程 组 
(b) 证 明 每 一 个 n 步 转换 概率 rij;(n) 都 收敛 到 一 个 极限 , 并 讨论 如 何 计算 这 些 极限 . 
解 (a) 我 们 引入 一 条 新 的 只 有 非常 返 状 态 和 吸收 状态 的 马尔 可 夫 链 . 非常 返 状 态 对 应 
原 链 的 非常 返 状 态 , 而 吸收 状态 对 应 于 原 链 的 常 返 类 . 新 链 的 转移 概率 V7;; 表示 如 
下 : 如 果 i 是 非常 返 状 态 , 则 Vi; = piy; 如 果 i 是 非常 返 状 态 ,有 对 应 常 返 类 , 则 
Pir 是 i 在原 链 中 到 达 常 返 类 中 所 有 状态 的 转移 概率 的 和 . 

所 求 的 概率 ai(k) 是 新 链 中 的 吸收 概率 并 由 以 下 公式 给 出 : 


ai(k) = Pix 十 >， Pijaj(k)， 对 所 有 的 非常 返 状 态 i 成 立 . 
5 非常 返 

(b) 如 果 i 和 7 是 常 返 态 但 不 属于 同一 类 ,ri(n) 总 是 0， 如果; 和 7) 是 常 返 态 且 属 于 
同一 类 , 考虑 由 这 个 常 返 类 的 状态 所 组 成 的 一 个 新 的 马尔 可 夫 链 . 原 马 尔 可 夫 链 的 
Tij(n) 与 新 的 马尔 可 夫 链 的 rij(n) 是 相同 的 . 在 新 的 马尔 可 夫 链 中 , rij(n) 收敛 到 
a 7 的 稳 态 概率 . 如 果 7 是 非常 返 状 态 , rij(n) 收敛 到 0. 最 后 如 果 i 是 非常 返 状 
态 , j 是 常 返 的 , 则 rij(n) 收敛 到 以 下 两 个 概率 的 乘积 : (1) 从 i 开始 过 程 到 达 7 所 
在 的 常 返 芭 类 的 概率 ; (2) 在 开始 状态 在 7 的 常 返 类 的 条 件 下 , 过 程 到 达 7 的 稳 态 概 
平均 首次 到 达 时 间 。 考虑 一 条 单一 常 返 类 的 马尔 可 夫 链 , 记 s 是 国定 的 常 返 状态 .证 明 

下 列 方 程 组 


ts 一 0， t=1+) pit, 对 所 有 的 i 关 s 


j=1 
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是 平均 首次 到 达 时 间 满 足 的 方程 , 且 只 有 唯一 解 . 提示 : 在 证 明 解 的 唯一 性 的 时 候 , 利用 
反 证 法 . 如 果 存 在 两 组 解 , 考虑 两 组 解 之 差 , 找到 使 差 满 足 的 一 组 方程 . 并 证 明 这 组 方程 
有 有 零 解 . 
解 记 世 是 首次 到 达 ; 的 平均 时 间 , 利用 全 期 望 定 理 , 可 以 证 明 它 满足 题目 中 的 方程 组 . 
现在 只 需 证 明 解 的 唯一 性 . 为 了 证 明 唯 一 性 , 令 云 是 男 一 组 解 . 对 所 有 i 取 s 


ti=1+ pit, =1+), pb, 
j¥s 和 zs 


两 者 相 减 , 我 们 得 到 


6 = > pi16j， 


js 


这 里 5 = 石 一 妇 . 将 这 个 等 式 连续 套用 mm 次 ， 得 到 


0i 一 >， Pij1 3 Dj172 > Pjm_1jm 7 Ojm. 


j1F¥5 Jj2F¥5 Im 天 s 


六 


此 , 对 所 有 的 i 去 s， 


[6 < pi >》 Djj 0 >》 Dim im max|6 
5 - 3 
了 1 天 s IJ2 天 s Im 天 s 
=P(X1 #8,.… ,Xm A s|Xo 三 人 .max|0j|. 
2 


另 一 方面 , 我 们 有 P(Xi 关 s,..., Xm 关 s|Xo = 让 < 1 这 是 因为 从 任意 状态 开始 s 能 在 
mm 步 内 达到 的 概率 为 正 . 这 表明 5; 必须 是 0， 

平均 常 返 时 间 和 平衡 方程 组 ， 考虑 一 条 单一 常 返 类 的 马尔 可 夫 链 , 记 s 是 
态 . 对 任意 状态 i, 令 


% 


kyy 


定 的 常 返 状 


34. 


Ai 三 也 [在 相 邻 两 次 访问 状态 s 之 间 访 问 状态 i 的 次 数 ]. 


(a) 证 明 对 所 有 的 i, 我 们 有 


Ai 一 >， PkPRi: 
k=1 


(b) 证 明 数 值 


pi 


Ti 一 一 ， 
ts 


的 总 和 为 1 且 满 足 平衡 方程 组 , 这 里 从 是 s 的 平均 常 返 时 间 (从 s 开始 第 一 次 区 
到 s 的 期 望 转移 数 ). 
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(c) 证 明 如 果 ri,…… ,rm 是 非 负 的 , 满足 平衡 方程 组 且 和 为 1, 则 

去 ， 若 i 是 常 返 态 ， 

Ti 二 汪 
0， 若 i 是 非常 返 状态 . 
这 里 共 是 i 的 平均 常 返 时 间 . 

(d) 证 明 (b) 部 分 的 分 布 是 满足 平衡 方程 组 的 唯一 概率 分 布 . 
注意 : 本 题 不 仅仅 是 提供 了 满足 平衡 方程 的 概率 分 布 的 存在 性 和 唯一 性 的 另 一 种 证 明 , 也 
为 稳 态 概率 和 平均 常 返 时 间 之 间 建 立 了 一 种 直观 的 联系 . 主要 思路 是 把 整个 过 程 分 割 成 
“ 圈 ”, 每 当 常 返 状态 s 被 访问 , 那么 一 个 新 轿 就 会 开始 . 状态 s 的 稳 态 概率 就 可 以 解释 
为 访问 状态 s 的 长 机 长 期 的 期 望 频率 与 两 次 连续 访问 s 之 间 的 平均 步 数 
( 即 平均 常 返 时 间 ) 成 反比 例 . 参见 (c). 进一步 地 , 在 某 一 个 圈 内 , 如 果 一 个 状态 i 能 被 
访问 到 的 0 7 的 两 倍 , 那么 , 状态 i 的 长 期 期 望 频 率 x; 也 应 该 是 Ti 
的 两 倍 . 因此 , 稳 态 概率 x; 应 该 和 在 一 圈 中 期 望 访问 次 数 p; 成 比例 . 
解 (a) 考虑 马尔 可 夫 链 Xn, 初始 状态 Xo = s. 我 们 首先 证 明 对 所 有 的 i 有 


p= P(X1 za， 
为 了 验证 这 个 公式 , 我 们 首先 考虑 i 取 s 


s,..……,X 


的 次 数 为 并 


长 


也 一 工 关 5s, Xn = 
因此 ” 


> E[I,] 


》 


E# 


一 卫 3 |- 
= 


i 二 s, 对 不 同 值 的 n, 事 


{X15 ,X 


@ 下 面 将 


令 了 是 序列 {X1, XX2,… 


既然 
0, 从 而 


F 均 常 返 时 间 并 se 1 


二 i 则 取 值 为 1， 否 贝 


ee 


2 天 5, Xn 二 i). 


的 情况 , 令 I 是 随机 变量 , 如 果 Xi1 关 


上 取 0. 因此 在 访问 状态 s 前 访问 状态 i 


P(X1 #8,- DE 2 


1 


ee 


5| Dn 


n=k 二 1 


到 无 穷 和 运算 和 期 望 运算 的 可 交换 性 , 现在 来 证 


明 这 个 事实 . 对 任意 


= > Elm 


中 第 一 


由 


上 等 于 s 的 时 辫 


)) P(T=0)E 
天 二 2 $= 2 


P(T = 4) 是 有 限 的 ， 
也 | 于 中 si In| 一 0. 这 样 ,当天 一 co 时 


a 
1 


| 二 


Co 


n=k 二 1 


a 


Ve 


> nT=t 


k 一 co 时 , 从 42 志 (T= 如 的 极限 等 


< 》 tP(T=0). 


t=k 二 2 


三 下 划 辐 
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构成 样本 空间 的 一 个 分 割 . 因此 ， 


> PCOX 关 s ,Xn 1 5, Xn 5) 1 ps) 
二 1 
就 完成 了 我 们 声明 的 证 明 . 
我 们 下 一 步 对 n zz 2 的 情况 使 用 全 概率 公式 ， 


P(Xi Sy GE A 5, Xn = 让 一 > PC 3 , Xn-2 5, Xn-1 = hk)pri: 
kzs 


因此 ， 


记 =>》P(O 关 sp)Xi #8, Xn=) 


区 三 出 
=psi+ >》 PC 天 5 , Xn-_1 gy 一 外 
A 
=psi+ YY P(X Fs, , Xn2 #8, Xn-1 = k)pe 


n=2 kzs 


=psi + ) pi》 P(X #8, , Xn 2 £5, Xn-1=A) 


kz¥s n=2 


hy 


>， PkDPRi: 
ke 


(b) 用 (a) 部 分 建立 的 关系 两 边 同 时 除 以 共 , 可 得 
Ti 二 > TkEDRi, 
k=1 


这 里 ri = pi/ 共 因此 x 是 这 个 平衡 方程 组 的 解 ， 进 一 步 地 , mi 是 非 负 的 , 显然 

1 Pi 三 , 从 而 Twi 二 1 因此 (zi,… ,Am) 是 一 个 概率 分 布 . 

(c) 考虑 一 个 满足 平衡 方程 组 的 概率 分 布 (ri …… ,rm). 固定 一 个 常 返 状态 s, 令 共 是 
s 的 平均 常 返 时 间 , 并 令 t; 是 从 不 是 s 的 状态 i 到 状态 s 的 平均 首次 到 达 时 间 . 我 
们 将 证 明 rs 芝 = 1. 事实 上 , 我 们 有 


0 =1 十 》 psjty, 


IF#s 
万 三 工 十 pity, 对 任意 的 i 去 s. 
Ij#s 


把 这 些 等 式 分 别 乘 以 rs 和 ri, 然后 相 加 , 我 们 得 到 


iab: 十 》 Ti =1 I 


as EL: js 


运用 平衡 方程 组 , 右边 等 于 


1 十 》 7 >》 pit; 一 1 十 》 万》 nipiy 一 1+ tny. 
i=l  j#s j¥s i=l1 js 
结合 最 后 两 个 等 式 , 我 们 得 到 rs 友 = 1. 
因为 概率 分 布 (ri … ,mm) 满足 平衡 方程 组 , 如 果 初 始 状态 Xo 是 根据 这 个 分 
布 来 选取 的 , X,, 的 分 布 将 与 Xo 具有 相同 的 分 布 . 如 果 过 程 是 从 常 返 状态 i 开始 
的 , 当 n 一 co 时 , X 在 此 状态 的 概率 趋 于 0. 这 表明 我 们 必须 有 i = 0. 
(b) 部 分 表明 至 少 存在 一 个 概率 分 布 满足 平衡 方程 组 . (c) 部 分 表明 只 有 一 个 这 样 的 


(d) 
概率 分 布 . 

35.” 马尔 可 夫 链 的 大 数 定律 . 考虑 一 个 有 限 状 态 的 马尔 可 夫 链 , 只 有 一 个 常 返 类 , 且 是 非 周 期 
的 . 固定 状态 s, 定义 丈 为 第 天 次 访问 状态 s 的 时 间 , 公 为 前 n 次 转移 时 访问 s 的 的 
(a) 证 明 : Yi/k 以 概率 1 收敛 到 状态 s 的 平均 常 返 时 间 共 . 

(b) 证 明 : 你 /nm 以 概率 1 收敛 到 1/ 怒 . 

(c) 建立 Vi/n 的 极限 与 s 的 稳 态 概率 之 间 的 关系 . 

解 (a) 固定 初始 状态 i, 可 能 与 s 不 同 . 因此 随机 变量 况 41 一 款 , (k > 1) 对 应 于 相 邻 

次 访问 s 的 时 间 间 隔 . 由 马尔 可 夫 性 质 (给 定 当前 状态 , 未 来 与 过 去 独立 ), 过 程 
在 回访 s 时 相当 于 重新 开始 , 所 以 随机 变量 鸡 +1 一 Yi 是 相互 独立 、 同 分 布 的 随机 
变量 , 而 且 均 值 等 于 平均 常 返 时 间 女 . 运用 大 数 定律 , 以 概率 1 地 , 有 
二 > = 5; i i 可 YY 二 ts. 
(b) 首先 我 们 将 固定 样本 空间 (马尔 可 夫 链 的 所 有 轨道 的 集合 ) 的 一 个 轨道 来 论证 . 记 


声 和 Vi 的 取 值 分 别 为 y 和 va. 进一步 地 , 根据 结论 (a), 假设 序列 四/ 收敛 到 
奉 , 而 且 具 有 这 种 性 质 的 轨道 集合 的 概率 为 1. 现在 取 定 这 样 的 时 间 n: 位 于 第 天 次 
访问 s 的 时 间 和 第 十 1 次 访问 s 的 时 间 之 间 , 即 


Yk SN < Ykt1: 


对 于 这 样 的 n, vw = k, 我 们 有 


l A 二 < a 
Yk+1 nN Yk 
从 而 
< 和 区 
Vk+1 nN Yk 
注意 到 
k+l k . k 1 


lim = lim . lim = lim 三 
一 co Yk+1 KE 一 co Yk+1 天 一 co k 十 1 k—=00 Yk 


346 


第 7 章 


马尔 可 夫 链 


7.5 节 


36. 


37. 


38. 


39.” 


今 nn 趋 3 


于 无 穷 大 , 则 满足 条 件 ys < n < yn+1 的 也 必然 趋 于 无 穷 大 . 序列 wy/m 


令 几 


介 于 两 个 都 趋 于 1/ 共 的 序列 之 间 , 因此 序列 wa/m 也 同样 趋 于 极限 1/ 公 .而 这 个 性 


(c) 在 习题 


个 常数 . 


ElY,] = P(X < 1/n)E[IY,|X < 1/n] = - 


只 要 X 非 零 (概率 1 发 4 


质 对 于 概率 为 1 的 轨道 集合 中 的 任 一 个 轨道 都 成 立 , 故 可 以 得 出 你 /mn 以 概率 1 收 
敛 到 1/ 共 . 


34 中 已 经 证 明了 1/ 共 = Ts. 这 说 明了 Vn/n 以 概率 1 收敛 到 xs， 注解: 


下 


人 们 也 试图 使 用 另 一 种 方法 来 证 明 Vi,/n 以 概率 1 收敛 到 xs. 方法 如 下 : 由 (b) 知 
道 Vi,/n 收敛 , 又 也 [人 /nm] 收敛 到 rs (参见 7.3 节 中 的 稳 态 概率 之 长 期 期 望 频率 的 
坚 释 ), 故 Vi/n 以 概率 1 收敛 到 rs. 但 是 这 种 推导 方法 是 不 对 的 . 这 是 因为 一 个 随 
机 变量 | 


字 列 Y。 以 概率 1 ve A et 有 可 能 收敛 到 男 一 


例子 如 下 . 设 X 是 


连续 时 间 的 马尔 可 夫 链 


E), 则 序列 ,收敛 到 0. 另 一 方面 , 可 以 验证 


二 ;对 所 有 的 n 都 成 立 . 


名 修理 工人 需要 修理 一 套 有 mm 台 相 同 机 器 的 设备 . 修理 损坏 机 器 的 时 间 为 指数 分 布 ， 
机 器 局 动 后 正常 工作 直到 损坏 的 时 间 也 是 随机 变量 , 其 分 布 为 指数 分 布 , 均 


均值 为 1/ 和. 


值 为 1/4. 损坏 和 修理 时 间 是 相互 独立 的 . 


全 情况 下 , 计算 处 于 工作 状态 的 机 器 的 平均 台数 . 


(a) 求 所 有 机 器 都 处 于 修理 状态 的 稳 态 概率 . 
人 在 稳 态 
空 出 和 车 路 过 某 路 


四 名 乘客 , 乘客 就 会 等 待 出 租车 ; 
路 口 . 假设 过 程 进入 稳 态 , 求 蝇 


口 的 规律 是 一 个 泊 松 过 程 , 通过 的 车 辆 数 服从 强度 为 每 分 钟 两 辆 的 泊 


松 分 布 . 乘客 达到 路 口 的 过 程 也 是 泊 松 过 程 , 均值 为 每 分 钟 一 人 . 而 且 如 果 前 面具 有 少 于 


她 在 


否则 他 们 就 会 离开 而 不 回来 . 彰 妮 在 一 给 定时 间 到 达 该 
I 入 等 待 队列 条 件 下 的 期 望 等 竺 时间. 


过 


m 个 用 户 共 
指数 分 布 ， 


一 个 电脑 系统 . 


用 户 有 两 种 状态 , 一 种 是 “思考 状态 ”, 持续 时 间 为 独立 的 
参数 为 , 男 一 种 是 “活跃 模式 ”, 需要 先 递 交 一 份 服务 请 求 . 服务 器 一 次 只 能 


接收 一 份 请 求 , 且 在 完成 服务 之 前 不 会 接收 其 他 用 户 的 请 求 . 服务 请 求 的 时 间 为 独立 的 
外 数 分 布 随机 变量 , 参数 为 j, 而 且 与 用 户 的 思考 时 间 也 是 独立 的 . 建立 一 条 马尔 可 夫 链 ， 


求 出 等 待 请 求 


考虑 一 个 连续 时 间 马 尔 可 夫 链 ， 


类 . 


(a) 试 解释 为 什么 转移 时 间 序 列 


户 个 数 的 稳 态 分 布 (包括 正在 受理 的 服务 ). 


其 转移 率 为 vi;, 对 所 有 的 i 相同 . 假设 过 程 只 有 一 个 常 返 


(b) 证 明 马 尔 可 夫 链 X(t) 的 稳 态 概率 舱 入 马尔 可 夫 链 X 的 稳 态 概率 是 一 样 的 . 


解 (a) 


] v 表示 转移 率 v; 的 于 


共同 值 . 序列 丈 是 独立 指数 分 布 时 间 区 间 序 列 , 参数 为 


v. 因此 它们 能 和 到 达 时 间 联 系 起 来 , 那 也 是 泊 松 过 程 , 强度 为 v. 
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(b) 这 条 连续 时 间 链 的 平衡 和 归 一 化 方程 组 为 
Td k= npg f= 1 ,mMm 
kA#j et 
时 = >， Tk. 
k=1 
通过 关系 式 gj = vpjx, 约 掉 公 共 因 子 ww 这 一 组 方程 可 写 为 
Tj DPjk 一 》 Thphj 了 二 7 
kA#j et 
1 >， Tk. 
k=1 
于 是 有 并， pi 二 1 一 pjj, 所 以 上 述 方 程 组 中 的 平衡 方程 组 可 以 写 为 
ij(1 — pj;) = 》 Thphj j=1 le my 
kj 
从 而 
一》 Thphj j=1,.…,m. 
k=1 
这 就 是 嵌入 马尔 可 夫 链 的 平衡 方程 组 因为 它 是 非 周 期 的 单一 常 返 类 , 所 以 平衡 方 


呈 组 只 有 唯一 解 . 因此 x; 也 是 这 条 嵌入 马尔 可 夫 链 的 稳 态 概率 . 


第 8 章 


统计 
A Je 


第 9 章 旨 在 : 


贝 叶 斯 统计 推断 


有 断 是 从 观测 数据 推断 未 知 变量 或 未 知 模型 的 有 关 信 息 的 过 程 . 本 


) 评价 统计 学 中 两 种 主要 方法 ( 贝 叶 斯 统计 


(a 
区 别 和 类 似 之 处 ; 
(b) 介绍 统计 


E 靳 和 经 典 统 计 寺 


E 靳 的 主要 内 容 (参数 估计 、 假设 经 验 和 显著 性 检验 ); 


(c) 讨论 统计 学 中 最 重要 的 方法 (最 大 后 验 概 率 准 则 , 最 小 均 方 估计 , 最 大 似 然 


估计 , 回归 , 似 然 比 检验 , 等 等 ); 


(d) 举例 说 明 如 何 运用 理论 . 


1. 概率 与 统计 
统计 


E 靳 与 概率 理论 在 许多 重要 方面 存在 不 同 . 概率 论 是 建立 在 第 1 章 公理 


的 基础 上 的 自我 完善 的 数学 课题 . 在 概率 推理 中 , 我 们 假设 有 一 个 完整 的 特定 概率 


模型 满足 这 些 概 率 公 理 . 然后 运 
兴趣 的 问题 . 特别 地 , 一 些 模棱两可 的 问题 只 有 唯 


用 数学 方法 对 这 个 概率 模型 进行 量化 , 以 及 回答 感 


的 正确 答案 , 即使 这 个 答案 有 


时 也 很 难 发 现 . 概率 模型 从 本 质 上 看 也 无 需 与 实际 相 一 致 (虽然 模型 有 用 会 更 好 一 


些 )， 


统计 学 却 不 是 这 种 情况 , 可 以 说 统 1i 
存在 很 多 合理 的 方法 , 可 得 出 不 同 的 结论 . 一 般 而 言 , 除非 人 们 可 对 所 下 


十 学 是 艺术 的 一 部 分 . 对 一 个 具体 的 问题 ， 


究 的 问题 


施加 一 些 假设 或 者 附加 约束 条 件 , 在 这 些 条 件 下 进行 推断 , 得 到 “理想 ”的 结论 , 否 


则 没有 


所 以 人 们 把 寻找 “正确 ” 


个 绝对 的 准则 来 选择 “最 好 ”的 方法 .比如 , 只 知道 股票 1 
回报 率 的 历史 数据 , 就 不 会 有 一 个 “最 好 ”的 方法 来 预测 下 一 年 的 回报 率 . 


] 场 在 最 近 五 年 


的 方法 局 限 在 能 得 至 


上 一 些 理想 的 性 质 的 方法 上 , 比如 


当 数 据 的 样本 量 在 无 穷 大 的 情况 下 能 做 出 正确 的 


靳 .判断 一 种 方法 优 于 其 他 方 


法 可 以 考虑 如 下 几 个 因素 : 性 质 优 
种 特定 方法 解决 一 类 特殊 的 问题 方面 形成 的 共识 . 我 们 将 重点 介绍 一 些 最 流行 的 
法 对 它们 进行 分 析 和 比较 的 主要 方法 . 


省 介 色 


万 潜 ; 


2. 贝 叶 斯 统计 与 经 典 统计 


在 统计 领域 , 有 两 种 突出 但 对 立 的 思想 学 派 


率 学 派 ). 他 们 之 间 最 重要 的 区 别 就 是 如 何 看 待 未 知 模型 或 者 变量 . 


观点 是 将 其 看 成 是 已 知 分 布 的 随机 变量 ， 


展 , 过 去 的 经 验 ， 


共同 的 观点 , 以 及 统计 学 家 对 一 


贝 叶 斯 学 派 和 经 典 学 派 (也 称 频 
贝 叶 斯 学 派 的 


而 经 典 统计 学 派 的 观点 是 将 其 看 成 未 知 的 
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符 佑 计 的 量 . 
贝 叶 斯 方法 主要 是 想 将 统计 领域 拉 回 到 概率 论 的 王国 里 , 使 得 每 个 问题 都 只 有 
唯一 的 答案 . 特别 地 , 当 人 们 和 欲 对 未 知 模型 进行 推断 时 ， 贝 叶 斯 方法 将 该 模型 看 成 
是 随机 地 从 已 知 的 一 类 模型 中 选 出 来 的 . 处 理 方 法 是 引入 一 个 随机 变量 9 来 刻画 
该 模型 , 然后 构造 一 个 先 验 概 率 分 布 re(0). 在 已 知 数据 z 的 情况 下 , 人 们 原则 上 使 
用 贝 叶 斯 公式 来 推导 后 验 概率 分 布 pelx(glz). 这 样 就 抓 住 了 z 能 提供 关于 9 的 所 
有 信息 . 

相反 , 经 典 统计 方法 将 未 知 参 数 9 视 为 常数 , 但 是 未 知 就 需要 估计 . 然后 经 典 
统计 的 目标 就 是 提出 参数 9 的 估计 方法 , 且 保证 具有 一 些 性 质 . 本 书 介绍 一 个 重要 
的 概念 . 它 与 本 书 介绍 的 其 他 方法 中 使 用 的 概念 的 区 别 是 : 经 典 方 法 处 理 的 不 是 一 
个 概率 模型 , 而 是 有 多 个 待 选 的 概率 模型 , 每 个 标记 为 9 的 一 个 可 能 值 . 
两 个 学 派 的 争论 已 经 持续 一 个 世纪 了 , 经 常 争 论 的 是 哲学 思想 . 在 两 派 的 争论 
过 程 中 , 每 派 都 构造 一 些 例子 来 说 明 对 方 学 派 的 方法 有 时 会 得 到 不 合理 的 或 者 不 吸 
引 人 的 结论 . 我 们 简短 地 回顾 两 个 学 派 争 论 的 观点 . 

假设 我 们 要 通过 噪声 实验 的 手段 来 测量 一 个 物理 常数 , 比如 电子 的 质量 . 经 典 
统计 学 家 认为 电子 的 质量 尽管 未 知 , 但 也 只 是 一 个 常数 , 所 以 不 能 把 它 看 成 随机 变 
量 . 而 贝 叶 斯 统计 学 家 却 给 它 一 个 先 验 分 布 , 来 反映 人 们 对 电子 质量 的 已 有 知识 . 
比如 , 如 果 我 们 已 经 从 历史 实验 中 获知 电子 质量 的 大 概 范围 , 则 可 以 将 先 验 分 布 集 
中 在 那个 范围 内 . 

经 典 学 派 统 计 学 家 经 常 反对 这 种 挑选 一 个 特定 先 验 的 随意 性 ， 贝 叶 斯 统计 学 
家 反 驶 说 , 任何 统计 推断 往往 隐 含 着 一 些 先 验 . 进一步 地 , 在 某 些 例子 中 , 先 验 分 布 
如 果 是 某 个 特殊 选 定 的 分 布 , 经 典 方法 实质 上 是 与 贝 叶 斯 方法 等 价 的 . 通过 将 所 有 
的 假设 都 以 先 验 的 形式 放 在 一 起 , 贝 叶 斯 统计 学 家 主张 将 这 些 假 设 公开 , 并 认为 它 
们 是 经 得 起 推 阁 的 . 

最 后 , 从 实际 的 角度 考虑 . 在 许多 情况 下 , 贝 叶 斯 方法 在 计算 方面 很 环 手 , 比如 
需要 计算 多 维 的 积分 . 另 一 方面 , 随 着 快速 计算 逐渐 为 人 们 所 用 , 贝 叶 斯 统计 学 派 
的 大 量 最 新 研究 成 果 就 集中 在 如 何 使 贝 叶 斯 方法 具有 可 行 性 上 . 
3. 模型 推断 和 变量 推断 

统计 推断 的 应 用 主要 有 两 种 类 型 : 模型 推断 和 变量 推断 . 在 模型 推断 中 , 研究 
的 目标 是 物理 现象 或 过 程 , 基于 得 到 的 数据 为 这 些 物理 现象 或 过 程 构造 或 者 验证 一 
个 模型 (比如 行星 运行 的 是 否 为 椭圆 轨道 )， 利 用 这 样 的 模型 就 可 以 对 未 来 进行 预 
测 , 或 者 推 知 许多 未 知 的 原因 . 在 变量 推断 中 , 人 们 使 用 许多 相关 的 , 或 者 带 有 噪声 
的 信息 估计 一 个 或 者 多 个 变量 值 (比如 , 若 给 定 一 些 GPS 的 信息 , 那么 我 们 现在 的 
位 置 在 什么 地 方 ). 
模型 推断 与 变量 推断 的 区 别 不 是 很 明显 . 比如 , 将 模型 描述 为 一 组 变量 的 形式 ， 
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我 们 就 可 以 将 模型 推断 的 问题 转换 成 变量 推断 的 问题 . 在 很 多 情况 下 , 我 们 将 不 强 


调 它们 的 区 别 , 这 是 因为 相同 的 方法 可 以 同时 使 用 在 这 两 种 类 型 的 推 新 中 . 


在 有 些 应 用 中 , 需要 同时 考虑 这 两 种 推断 问题 . 比如 , 我 们 收集 了 一 些 原 始 数 
据 , 使 用 数据 来 建立 一 个 模型 , 然后 利用 模型 去 推 知 相关 变量 值 


例 8.1 (噪声 信道 ) ”发 送 端 发 送 一 串 二 进 制 信号 s; € {0,1}, 接收 端 观测 到 


Xi=asi+Wi, 1=1,...,n, 


其 中 Wi 是 零 均值 的 正 态 随机 变量 (反映 信道 的 噪声 ), a 是 实数 (用 于 刻画 信道 的 
衰减 率 ). 在 模型 推断 中 , a 是 未 知 的 . 发 送 端 发 送 一 组 测试 信号 s1, s2,… , sn, 接收 


端 是 知道 发 送 端 发 送 的 信 


号 的 . 现在 的 任务 是 基于 观测 值 X1,… , X, 接收 信和 号 方 


欲 估计 a 的 值 . 这 就 是 模型 推断 的 任务 : 建立 这 个 信道 的 模型 . 


另 一 个 方面 , 在 变量 推断 中 , a 是 假设 已 知 的 (可 能 是 因为 如 上 利用 测试 数据 
推断 出 来 了 ). 接收 方 观测 到 数据 2 … , Xh 后 , 欲 估计 s1,… ,sn 的 值 . 这 就 是 变 
量 推断 的 任务 : 确定 s1,… 


4. 统计 推断 问题 的 简单 分 类 


,sn 的 值 . 


这 里 我 们 描述 一 些 不 同类 型 的 统计 推断 问题 . 在 估计 问题 中 , 模型 是 完全 确定 


的 , 只 是 有 一 些 未 知 的 ( 


可 能 是 多 维 的 ) 参数 0 需要 去 估计 . 参数 既 可 以 看 成 随机 


变量 ( 贝 叶 斯 方法 ), 也 可 以 看 成 是 未 知 常数 (经 典 方法 ). 通常 的 目标 就 是 得 到 9 的 


估计 , 使 得 它 在 某 种 意义 -| 


与 真实 值 接近 . 比如 : 


(a) 在 例 8.1 噪声 信道 问题 中 , 使 用 测试 序列 知识 和 观测 值 去 估计 a; 
(b) 使 用 民意 测验 数据 , 估计 一 个 选举 地 方 内 选民 支持 候选 人 4, 而 反对 候选 


人 B 的 比例 ; 


(c) 基于 股票 市 场 历史 数据 , 估计 一 个 特定 股票 的 价格 每 日 走势 的 均值 和 方差 . 
在 二 重 假设 检验 问题 中 , 从 两 个 假设 出 发 , 运用 得 到 的 数据 去 判断 这 两 个 中 哪 


一 个 是 正确 的 . 比如 : 


(a) 在 例 8.1 噪声 信道 问题 中 , 使 用 a 的 知识 和 X; 去 判断 s 是 0 还 是 1; 
(b) 给 定 一 个 带 有 噪声 的 图 片 , 判断 图 片 中 是 否 有 人 ; 


(c) 给 定 有 两 种 不 同 的 医疗 处 理 方法 的 临床 实验 数据 , 判断 哪 种 疗法 更 有 效 . 
更 一 般 地 , 在 m 重 假设 检验 问题 中 , 有 mm 个 对 立 的 假设 . 判断 一 种 方法 的 好 
坏 的 依据 是 该 方法 做 出 错误 结论 的 概率 大 小 . 当然 , 贝 叶 斯 方法 和 经 典 方法 都 是 可 


以 利用 的 . 


在 本 章 中 , 我 们 重点 


介绍 贝 叶 斯 估计 问题 , 但 也 讨论 假设 检验 问题 . 在 第 9 章 
中 , 除了 讨论 估计 问题 外 , 我 们 还 要 讨论 更 广 的 假设 检验 问题 . 我 们 只 是 介绍 性 的 


讨论 , 远 远 不 能 满足 实际 9 


考虑 具有 形式 Y = g(X) 


FP 存 在 的 统计 推断 问题 的 需要 . 为 说 明 实际 问题 的 广泛 性 ， 


W 的 模型 , 该 模型 涉及 两 个 随机 变量 X 和 YY, 其 中 W 
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内 了 . 


是 零 均 值 噪声 , 9 是 需要 估计 的 未 知 函数 . 这 类 问题 , 未 知 目 标 (比如 这 里 的 函数 g) 
是 不 能 表述 为 固定 数目 的 参数 , 称 为 非 参 数 统计 推断 问题 , 就 不 在 本 书 考虑 范围 之 


本 章 中 的 主要 术语 、 问 题 以 及 方法 


。 贝 叶 斯 统计 将 未 知 参数 视 为 
。 在 参数 估计 


。 在 假设 检验 9 


。 贝 叶 斯 推断 的 主要 方法 : 


(a) 最 大 后 验 概率 (MAP) 准 则 : 在 可 能 的 参数 /假设 的 取 值 范围 内 , 选 
择 一 个 在 给 定数 据 下 , 具有 最 大 化 条 件 概率 /后 验 概率 的 值 (参见 8.2 


(b) 最 小 均 方 (LMS) 估 计 : 选择 数据 的 一 个 估计 量 或 者 函数 , 使 得 参数 
与 估计 之 间 的 均 方 误差 达到 最 小 (参见 8.3 节 ); 
(c) 线性 最 小 均 方 (LLMS) 估 计 : 选择 数据 的 一 个 线性 函数 , 使 得 参数 


节 ); 


与 估 
均 方 


计 之 间 的 均 方 误差 达到 最 小 


误差 , 但 是 计算 简单 , 因为 计算 过 程 只 依赖 于 相应 随机 变量 的 均 


值 、 方差 和 协 方差 . 


已 知 先 验 分 布 的 随机 变量 . 

,对 参数 进行 估计 , 使 得 在 某 种 概率 意义 下 估计 接近 真实 值 
,未 知 参数 根据 对 立 的 假设 可 能 取 有 限 个 值 人 们 去 选择 其 
中 一 个 假设 , 目标 是 使 犯错 误 的 概率 很 小 . 


(参见 8.4 节 ). 这 可 能 会 得 到 更 高 的 
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在 贝 叶 斯 推断 中 , 感 兴趣 的 未 知 量 记 为 6, 视 其 为 一 个 随机 变量 , 或 者 随机 变 


量 的 有 限 集合 . 这 里 6 代表 物理 量 , 比如 车 加 


的 位 置 和 速度 , 也 可 代表 一 个 概率 模 


型 的 未 知 参数 集合 . 简单 而 言 , 在 没有 明确 标明 的 情况 下 , 9 视 为 一 个 简单 的 随机 


变量 


我 们 的 目标 就 是 基于 观测 到 相关 随机 变量 的 值 X = ( 议 ,… ,X) 来 提取 6 
的 信息 . 我 们 称 各 = (Xi1,… ,Xn) 为 观测 值 


我 们 知道 9 和 X 的 联合 分 布 . 等 价 地 , 假定 我 们 已 知 : 


、 测 量 值 或 者 观测 向 量 . 为 此 , 假定 


(a) 先 验 分 布 pe 或 者 fo, 这 要 看 6 是 离散 的 还 是 连续 的 ; 
(b) 条 件 分 布 pxje 或 者 xle, 同样 这 也 要 看 9 是 离散 的 还 是 连续 的 . 
一 旦 X 的 一 个 特定 值 x 观测 到 后 , 贝 叶 斯 推断 问题 的 完整 答 娄 就 由 日 的 后 


验 分 布 pelx(glz) 或 者 fe 


x(blz) 来 决定 , 见 图 8.1. 这 个 分 布 可 以 使 用 贝 叶 斯 法 则 


来 计算 . 好 
的 起 点 . 


E 已 经 得 


} 知 的 信息 下 , 它 抓 住 了 关于 


9 的 一 切 信 息 , 从 而 成 为 了 未 来 分 析 
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Ee 


点 估计 ， 


先 验 分 布 pe | 
误差 分 析 等 ， 


图 8.1 贝 叶 斯 推断 模型 的 总 结 . 起 点 是 8 和 观测 X 的 联合 分 布 , 或 者 等 价 的 说 法 是 先 验 分 

布 和 条 件 分 布 列 /概率 密度 函数 . 已 知 X 的 观测 值 x 后 , 运用 贝 叶 斯 法 则 计算 后 验 
分 布 列 / 概 率 密度 函数 . 后 验 分 布 可 用 来 回答 更 多 的 推断 问题 . 比如 计算 9© 的 估计 、 
相关 的 概率 和 误差 方差 


贝 叶 斯 推断 的 总 结 
。 起 点 是 未 知 随机 变量 9 的 先 验 分 布 pe 或 者 fo. 
@ 得 到 观测 向 量 X 的 pxle 或 者 fxle: 
。 一旦 X 的 一 个 特定 值 > 观测 到 后 , 运用 贝 叶 斯 法 则 计算 @ 的 后 验 分 布 . 


在 此 我 们 提醒 大 家 注意 的 是 : 针对 9 和 X 的 离散 性 和 连续 性 的 不 同 组 合 , 贝 
叶 斯 法 则 有 四 种 不 同 的 形式 . 现在 我 们 列举 如 下 表 , 便于 使 用 . 然而 , 四 种 形式 本 
质 上 是 类 似 的 , 我 们 只 须 把 最 简单 的 形式 (所 有 变量 都 是 离散 的 ) 理解 清楚 , 对 其 余 
情况 只 需 做 一 个 概念 的 对 换 . 在 遇 到 连续 变量 时 , 我 们 只 需 将 分 布 列 替换 成 概率 密 
度 函 数 , 把 求 和 换 成 积分 . 进一步 地 , 如 果 © 是 多 维 的 话 , 相应 的 求 和 或 者 积分 就 
是 多 重 求 和 或 者 多 维 积分 . 


贝 叶 斯 法 则 的 四 种 形式 
e 离散 ， X 离散 : 


i De(O)Dxle(zZ|0) 
Pelx ope(0)pxle(zl0) 


e OO 离散 ， X 连续: 


(lz) = pe(O)jxie(zl0) 
Pelx De pe(0)fxie(z|0) 


e 口 连续 ， X 离散 : 


el 
folx (Ol) = To) px a 


_ fe(0)fxle(x|0) 
je 人 二 了 的 加 ea 
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下 面 举 一 些 例子 来 说 明 如 何 计算 后 验 分 布 . 
例 8.2 罗密欧 和 朱丽叶 开始 约会 . 但 是 朱丽叶 在 任何 约会 中 都 可 能 迟到 , 迟到 时 
间 记 为 随机 变量 X, 服从 区 间 [0,g] 上 的 均匀 分 布 , 参数 0 是 未 知 的 , 是 随机 变量 © 
的 一 个 值 . 9 是 在 0 和 1 小 时 之 间 均 匀 分 布 . 假设 朱丽叶 在 第 一 次 约会 中 迟到 了 zx， 
那么 罗密欧 如 何 利用 这 个 信息 去 更 新 © 的 分 布 . 

这 里 先 验 概率 密度 函数 是 


以 及 观测 值 的 条 件 概率 密度 函数 是 


1/06， 若 0<zx<9， 
fxle(z|0) 一 


0， ”其 他 . 


注意 , fe(9)fxje(z|9) 只 有 当 0< x<9<1 时 非 零 ,运用 贝 叶 斯 法 则 可 得 ， 对 任意 
的 ze [0,1], 后 验 概率 密度 函数 是 
fo(0)fxle(z|0) 1/0 1 a 
lz) = 二 加 ; <0<1, 

folx( |z) fe(0') fxje(z|0)d0 广 方 dg/ 0.|logz| 右 2 
且 当 0<7x 或 者 0>1 时 ， folx(0|7) 一 0. 

现在 考虑 前 次 约会 情况 所 引起 的 变化 . 假设 朱丽叶 迟到 的 时 间 记 为 X1,…， 
X， 在 给 定 © = 0 条 件 下 , 它 是 区 间 [0,g] 的 均匀 分 布 , 且 条 件 独立 . 记 X = 
(Xi1,… Xn) ,2 二 (TZ1,… ,zn). 类 似 于 n= 1 的 情形 , 我 们 有 


1/0*， 若 <0<1， 
fxle(zx|0) = 
0， 其 他 ， 


其 中 元 = max{fzi ,2n}. 后 验 概率 密度 函数 是 


(z)/0"， 若 3<0<1, 
作出 站， 
0， 其 他 ， 


其 中 c(z) 是 归 一 化 常数 , 只 依赖 于 z: 
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例 8.3 ( 正 态 随机 变量 公共 均值 的 推断 ) ” 设 随机 变量 观测 值 X = (Xi,… , X) 具 
有 相同 的 均值 , 但 是 均值 未 知 , 和 人 假设 给 定 均 值 的 条 件 下 , X; 是 正 态 的 , 且 
相互 独立 , 方差 分 别 为 of,… ,2 使 用 贝 叶 斯 方法 , 我 们 对 均值 进行 建 模 , 设 Xi; 
的 公共 均值 为 随机 变量 6, 且 已 知 其 先 验 分 布 . 其 体 而 言 , 我 们 假设 随机 变量 @ 的 
分 布 为 正 态 分 布 , 均值 已 知 为 zo, 方 关 为 已 知 03. 

为 将 来 引用 , 注意 到 我 们 的 模型 等 价 于 下 列 形式 


Ki=O+W, i=1,.. 


其 中 随机 变量 9, Wi,… , Wh 相互 独立 , 且 是 正 态 的 , 均值 和 方差 均 已 知 . 特别 地 ， 
对 任意 的 9， 


E[Wi] = EI[Wi:|© = 0 =0, var(Wi) = var(Xi|© = 0) = o7. 


这 类 模型 在 许多 工程 应 用 中 非常 普遍 , 工程 中 一 个 未 知 量 往往 有 若干 个 独立 的 测量 
值 . 

根据 假设 , 我 们 有 
以 及 


二 二 op{- (x1 -| op{- (zn — 0)? } 


207 202 


这 里 ci, ca 是 归 一 化 常数 , 不 依赖 于 9. 运用 贝 叶 斯 法 则 


Je6(0 )fxle(z|0) 
/ fe(0')fxle(z|0)do’ 


Jelx(olz) = 


注意 , 分 子 项 fe(0)fxje(z|9) 的 形式 是 


和 ~ (Ti — 0)? 
C1C2 .exps 一 5 
1C2 p 全 202 


2 


通过 代数 运算 , 对 指数 的 肩膀 上 的 求 和 部 分 进行 配 平方 , 可 以 算出 分 子 项 的 形式 是 
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4 是 常数 ,只 依赖 于 mi, 不 依赖 于 9 贝 叶 斯 法 则 公式 中 的 分 母 项 也 不 依赖 于 9, 所 
以 我 们 可 以 得 出 结论 , 后 验 概率 密度 函数 的 形式 是 


人 co 人 - 


a= 1/V2ru 是 归 一 化 常数 , 只 依赖 于 zi, 不 依赖 于 0. 这 是 正 态 概率 密度 函数 的 形 
式 , 所 以 后 验 概 率 密 度 函 数 是 正 态 的 , 均值 是 m, 方差 是 v. 

特殊 情况 下 , 假设 ci, ct，…… ,cx 都 相等 , 等 于 o?, 则 9 的 后 验 概率 密度 函数 
是 正 态 的 , 均值 和 方差 分 别 是 


Z0 十 :… 十 Zn 02 


n+l1 ' n+t+l 


在 这 种 情况 下 , 先 验 均值 zo 扮演 着 一 个 观测 值 的 作用 , 而 且 对 @ 的 后 验 均值 发 挥 
相同 的 作用 . 同时 注意 到 @ 的 后 验 概率 密度 函数 的 标准 差 在 观测 样本 量 增 大 时 趋 
于 0, 速度 大 致 是 1/ Vn. 

如 果 方 差 o? 不 相同 , 后 验 均值 m 仍 是 每 个 x; 的 加 权 平 均 , 方差 越 小 , 对 m 
的 权重 就 越 大 . 
上 例 有 一 个 显著 的 性 质 , 那 就 是 @ 的 后 验 分 布 与 先 验 分 布 是 同一 个 分 布 族 , 比 
如 说 正 态 分 布 族 . 这 个 性 质 非常 吸引 人 , 原因 有 两 个 . 

(a) 后 验 分 布 的 特征 具有 两 个 数 : 均值 和 方差 . 

(b) 后 验 分 布 的 解 形式 可 以 使 用 有 效 的 递归 推断 . 假设 已 经 获得 观测 值 Xi … ， 
XX, 且 下 一 个 观测 值 X,+i 也 得 到 了 . 那么 我 们 不 必 从 头 开始 计算 后 验 分 布 , 而 是 我 
们 可 以 将 fejx,.… ,x, 作为 先 验 , 然后 运用 新 观测 值 运算 得 到 新 后 验 foex,.. x, ,x 
我 们 可 以 使 用 例 8.3 的 答案 来 求 这 个 后 验 . 显然 (当然 可 以 正式 推导 ), © 的 新 后 验 
分 布 也 是 正 态 的 , 均值 是 


(m/v) + (Znt1/on41) 
(1/v) + (1/onr1) 


方差 是 
1 
(1/v) + (ca 


其 中 m 和 w 分 别 是 后 验 fejx,,…,x, 的 均值 和 方差 . 
但 是 后 验 分 布 与 先 验 分 布 属于 同一 分 布 族 的 情形 不 是 非常 普遍 . 除了 正 态 分 布 
族 外 , 另外 有 名 的 例子 是 投掷 硬币 的 伯 努 利 试验 和 二 项 分 布 . 
例 8.4 ( 非 均匀 硬币 的 贝塔 先 验 ) ” 欲 估计 一 个 非 均匀 硬币 投掷 时 正面 朝 上 的 概率 ， 
记 为 9. 将 9 看 成 随机 变量 6 的 一 个 值 , © 的 先 验 概率 密度 函数 为 fe. 现在 考虑 
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n 次 独立 的 投掷 试验 , 记 X 为 观测 到 的 正面 朝 上 的 总 次 数 . 运用 贝 叶 斯 法 则 , @ 的 
后 验 概率 密度 函数 是 : 对 任意 的 be [0,1]， 


folx (0|k) = cfe(0)pxle(kl0) = dfe(0)0"(1 — 0)"™™*, 


其 中 c 是 归 一 化 常数 (不 依赖 于 0), 且 d= c(?). 
现在 假设 先 验 是 贝塔 分 布 , 参数 是 正 整 数 a>0 和 £6>0, 即 


B(a, D) 


i 若 0<0<1， 
fe(0) = 
0， 其 他 ， 


其 中 B(a, 6) 是 归 一 化 常数 , 就 是 著名 的 贝塔 函数 , 即 


(a D(A-D 
(a+B—1)! 


1 
Bl(a, 8) =/ 0°-1(1 — 0)5-1d0 = 


最 后 一 个 等 式 可 以 通过 分 部 积分 的 方法 , 或 者 使 用 概率 方法 (第 3 章 习 题 30) 计算 
得 到 . 则 6 的 后 验 概率 密度 函数 的 形式 是 

= 
B(a., DO) 


所 以 也 是 贝塔 分 布 , 参数 是 


folx (Olk) = O°tR-1(1 — 0)" th 1, Og0g1, 


o =k+a, P=n—k+i+p. 


特殊 情形 是 a = 6 = 1, 即 先 验 fe 是 [0,1] 的 均匀 分 布 密度 . 在 这 种 情形 下 , 后 验 
密度 也 是 贝塔 密度 , 参数 是 kk 十 1 和 nn 一 kk 十 1. 

贝塔 密度 常常 在 统计 推断 的 实际 应 用 中 遇 到 , 而 且 具 有 很 有 趣 的 性 质 . 特别 地 ， 
如 果 9 是 服从 参数 为 a 和 8 的 贝塔 分 布 时 , 它 的 m 阶 矩 是 


mm] 1 m+a—1l B—1 
E[9 [=e Oto (一 外 db0 


B(m 十 oa,D) 
B(a, DO) 


a(a 十 1 (QQ 十 吧 一 1 
(at+PB(at+B+1l):...(a+B+m—1). 
前 面 几 个 例子 都 是 讨论 9 是 连续 的 情形 , 而 且 是 典型 的 参数 估计 问题 . 下 面 这 
个 例子 是 离散 情形 , 是 典型 的 二 重 假设 检验 问题 . 
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例 8.5 (垃圾 邮件 过 滤 ) 封 电 子 邮 件 不 是 垃圾 邮件 就 是 正常 邮件 . 我 们 引入 参 
数 6, 取 值 为 1 和 2, 分 别 代表 垃圾 和 正常 , 各 自 取 值 的 概率 分 别 为 pe(1),pe(2). 
设 {wi,… ,wn} 代表 一 些 特殊 的 词 (或 者 词 的 组 合 ) 形成 的 集合 , 它们 出 现 就 表示 
邯 件 是 垃圾 的 . 对 每 个 i, 记 X 是 伯 努 利 随 机 变量 , 来 定义 w; 是 否 出 现在 信息 中 ， 
即 当 w; 出 现时 , X; = 1, 否则 X; = 0. 假设 条 件 概 率 pxile(zil1l) 和 pxile(zil2 
(zi = 0,1) 是 已 知 的 . 简单 起 见 , 假设 在 给 定 © 的 条 件 下 , 随机 变量 Xi1,… , X 是 
相互 独立 的 . 

现在 我 们 运用 贝 叶 斯 法 则 来 计算 垃圾 邮件 和 正常 邮件 的 后 验 概率 . 即 


J 


mm Ee Tilm 
P(O© = mlX1 = v1 A = rn) = Pe(m) [Li px,e(walm) m= 1,2. 


DD pel()) I DX; @ (zilj) | | 
这 两 个 后 验 概率 可 以 用 于 将 邮件 分 类 为 垃圾 还 是 正常 , 其 计算 方法 将 在 后 面 继续 讨 
论 . 
多 参数 问题 
目前 为 止 我 们 只 讨论 单个 未 知 参数 的 情形 .多 个 未 知 参数 的 情形 也 是 完全 类 
以 的 . 下 一 个 例子 讨论 的 是 两 个 参数 的 问题 
例 8.6 假设 有 nn 个 声 敏 元 件 , 分 布 在 我 们 关注 的 一 个 地 理 
区 域内 . 设 第 i 个 声 敏 元 件 的 坐标 是 (a;,05;). 一 辆 发 送 已 知 声音 信号 的 车 辆 在 这 个 
区 域内 ， 由 标 为 > = (61, 682), 但 是 未 知 . 每 个 声 敏 元 件 探测 到 这 个 车 辆 ( 即 捕捉 到 
这 个 车 辆 的 信号 ) 的 概率 依赖 于 它们 之 间 的 距离 . 观测 数据 是 哪些 声 敏 元 件 探 测 到 
车 辆 , 哪些 没有 探测 到 , 目标 就 是 尽 可 能 地 找到 车 辆 所 在 的 位 置 , 见 图 8.2. 
a 


AN 


声 敏 元 件 一 一 一 声 化 元 件 
图 8.2 运用 声 感 传感器 网 络 定位 示意 图 


先 验 概率 密度 函数 fe 的 意思 是 我 们 基于 历史 观测 数据 对 这 个 车 辆 的 位 置 的 
大 致 认识 . 简单 起 见 , 假设 9; 和 96s 是 相互 独立 的 正 态 随 机 变量 , 均值 为 0、 方差 
为 1. 所 以 


1 2 2 
0 @—(01 十 02 )/2 
ju 的 = 亏 
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当 第 i 个 声 敏 元 件 探测 到 车 辆 时 , 令 Xi = 1, 否则 Xi; = 0. 由 于 信号 强度 随 目 
标 与 声 敏 元 件 之 间 的 距离 的 增加 而 衰变 , 我 们 假定 捕捉 概率 与 声 敏 元 件 与 车 辆 之 间 
的 距离 d;(01, 02) 是 呈 指 数 递 降 的 . 具体 说 , 我 们 使 用 模型 


P(X;= 1|0= (0,02))= px;le(l|l01,02) = e401,02) 


段 设 在 给 定 车 辆 位 置 的 条 件 下 ， 


和 


其 中 42(01,02) = (ai 一 ?十 (bi 一 92)?. 进 
Xi 是 彼此 独立 的 . 

定义 5 为 X; = 1 的 传感器 集合 . 现在 计算 后 验 概率 密度 函数 . 计算 jelx(blz) 
的 贝 叶 斯 公式 中 的 分 子 是 


TAN 


i€S 2&Z 9 


S. 


其 中 x 是 n 维 癌 量 (z1,... ,zn), 其 第 i 个 元 素 zi, 当 ie 5 时 , x; ==1, 否则 zx;=0. 
felx(9|x) 的 表达 式 中 的 分 母 就 是 对 分 子 表达 式 的 一 个 二 重 积 分 , 其 积分 变量 分 别 
为 91 和 0，. 

例 8.6 表明 ,不管 9 是 一 个 或 者 多 个 变量 向 量 , 计算 后 验 概率 密度 函数 folx (0|zx) 
的 原则 是 一 样 的 . 但 是 , 即使 原则 上 后 验 概率 密度 函数 是 通过 使 用 贝 叶 斯 法 则 运算 
得 到 , 但 是 一 般 而 言 , 不 能 指望 后 验 概率 密度 函数 有 闭合 式 的 表达 式 ， 实际 上 , 可 
能 需要 进行 数值 计算 . 通常 , 运用 贝 叶 斯 公式 计算 分 母 的 归 一 化 常数 很 具有 挑战 
在 例 8.6 中 , 分 母 是 对 9 和 b 的 双重 积分 , 数值 计算 具有 可 行 性 . 但 是 如 果 @ 
高 维 的 话 , 那么 数值 积分 就 非常 难 了 . 现在 已 经 有 成 熟 的 近似 计算 方法 , 即 可 以 
用 随机 抽样 的 方法 求 近似 积分 , 这 些 内 容 已 不 在 本 书 的 讨论 范围 之 内 了 . 

当 6 = (81,… ,em) 是 多 维 的 时 候 , 我 们 有 时 只 对 9© 其 中 一 个 元 素 ( 比如 说 
91) 感 兴趣 . 这 样 就 集中 在 计算 fe,x(01|x), 即 81 的 边缘 后 验 分 布 , 计算 公式 是 


六 (四 = /| fox(0,0%,... ,Owlz)d02. dg 


然而 , 当 © 是 高 维 的 时 候 , 计算 这 个 多 重 积分 是 非常 困难 的 . 
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本 节 介 绍 一 种 简单 但 是 普遍 的 贝 叶 斯 推断 方法 , 并 将 之 应 用 在 点 估计 和 假设 检 
验 问题 中 . 给 定 观测 值 z, 选择 9 的 一 个 取 值 , 记 为 9, 使 得 后 验 分 布 列 pelx(glz)( 若 
9 连续 则 为 后 验 分 布 概率 密度 函数 felx(9|z)) 达到 最 大 : 


0 = arg max pelx(0 zZ) (© 离散 )， 
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6 = arg max felx (0|7) (9 连续 ). 


这 就 是 最 大 后 验 概率 (MAP) 准则 ( 见 图 8.3). 


人 后 验 概 座 密 度 半数 
fox(0|2®) 


图 8.3 最 大 后 验 准 则 用 于 推断 的 说 明 , 左边 是 连续 型 变量 , 右边 是 离散 型 变量 


当 © 是 离散 型 变量 , 最 大 后 验 概率 准则 有 一 条 重要 的 最 优 性 质 : 由 于 0 是 9 
最 有 可 能 的 取 值 , 它 使 对 任意 给 定 的 x 有 最 大 的 概率 做 出 正确 的 决定 . 这 也 说 明 最 
大 后 验 概率 准则 使 总 体 (平均 了 所 有 z 可 能 的 取 值 ) 做 出 正确 决定 的 概率 达到 最 大 
(在 所 有 决策 准则 中 ). 等 价 地 , 最 大 后 验 概率 准则 使 得 做 出 错误 决定 的 概率 达到 最 
小 (对 于 每 个 x 的 观测 值 , 也 针对 总 体 错 误 的 概率 ).” 
在 贝 叶 斯 准则 下 的 后 验 分 布 有 一 条 计算 上 的 捷径 : 对 所 有 的 9 分 母 都 一 样 ， 
2 的 观测 值 决 定 . 因此 , 为 了 让 后 验 概率 达到 最 大 , 在 6 和 X 都 离散 的 情况 
, 只 须 寻 找 0 使 得 pe(bg)pxle(zlb) 的 数值 达到 最 大 , 在 © 或 X 连续 的 时 候 也 有 
类 似 的 表达 . 这 里 没有 必要 去 计算 分 母 . 


状 可 六 


最 大 后 验 概率 (MAP) 准则 
。 给 定 x 的 观测 值 , 最 大 后 验 概率 准则 是 指 在 所 有 的 9 中 寻找 0 使 得 后 验 
分 布 pelx(glz)( 若 9 离散 ) 或 Jelx(glz)( 若 6 连续 ) 达到 最 大 值 . 
。 等 价 地 , 最 大 后 验 概率 准则 是 在 所 有 0 中 找 6 使 得 下 面 函数 值 达 到 最 大 : 
pe(9)pxle(7x|0) (© 和 XX 均 离散 )， 


Q@ 为 了 更 准确 地 表述 这 一 问题 , 我 们 考虑 一 个 基于 z 的 观测 值 的 一 般 决 策 准 则 , 即 选择 一 个 9 的 取 
值 . 将 这 个 一 般 的 决策 准则 记 为 g(x)， 同 时 , 记 最 大 后 验 准则 为 gayaAp(-)， 用 工 和 IMAP 分 别 
表示 相应 的 伯 努 利 随机 变量 ,， 当 一 般 决 策 准则 (相应 的 , 最 大 后 验 准 则 ) 正确 的 时 候 , 7 的 取 值 为 
1( 相 应 地 , IyAp 的 取 值 为 1). 因此 事件 T= 1 和 g(X) = 日 是 一 样 的 , 对 于 gMAP 也 是 如 此 . 
根据 最 大 后 验 概率 准则 的 定义 , 对 于 每 个 可 能 实现 的 X， 

ELITIX] = P(g(X) = ©|X) < P(gmaP(X) = O|X) = ElIMAP|X]. 
根据 条 件 期 望 的 性 质 , 得 到 E[1] < E[IMAP], 即 

P(g(X)= ©) < P(gmaP(X) = ©). 

寻 此 , 在 所 有 的 决策 准则 中 , 最 大 后 验 准 则 使 得 做 正确 决定 的 总 概率 达到 最 大 . 注意 这 

是 离散 的 . 当 X = x 时 , 若 日 连续 , 则 在 任何 准则 下 做 出 正确 决定 的 概率 都 是 0. 


旺 
守 
S 
还 
© 
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pe(O)jxie(zlO) (9 离散 ， 从 连续 )， 
je(0)pxle(zl0) (9 连续 , X 离散 ) 
fe(0)fxle(z|9) (8 和 XX 均 连续 ). 


。 如果 日 只 取 有 限 个 数值 , 则 最 大 后 验 概率 准则 (在 所 有 决策 准则 中 ) 使 得 
选择 错误 假设 的 概率 达到 最 小 . 无 论 是 在 给 定 观测 值 z 的 情况 下 , 犯错 误 
的 条 件 概 率 , 或 者 是 犯错 误 的 无 条 件 概率 , 这 个 准则 都 是 正确 的 . 


下 面 我 们 通过 回顾 前 面 的 几 个 例子 来 解释 最 大 后 验 概 率 准 则 , 

例 8.3( 续 ) ” 设 6 是 正 态 随机 变量 , 均值 为 zo, 方差 为 ci. 给 定 6 的 取 值 9, 观察 

到 一 些 随机 变量 X = (Xi,.… , X), 它 的 分 量 是 相互 独立 的 正 态 随 机 变量 , 均值 为 
9, 方差 分 别 为 3,… ,2. 已 经 发 现 后 验 概率 分 布 密度 是 均值 为 m, 方差 为 v 的 正 
态 分 布 , 其 中 m 和 w 的 表达 式 为 

n 2 
=E[O|X =z|= 人 ,v=var(O|X =7) = De 

由 于 正 态 分 布 的 概率 密度 函数 在 均值 处 取 最 大 值 , 最 大 后 验 概率 估计 为 6=m 
例 8.5( 续 ) ”在 这 个 例子 中 , 参数 6 取 值 为 1 和 2, 分 别 代表 垃圾 邮件 和 正常 邮件 ， 
各 自 取 值 的 概率 分 别 为 pe(1) 和 pe(2). Xi 是 伯 努 利 随机 变量 , 用 于 定义 词 wi 是 否 
出 现在 信息 中 , 即 当 wi 出 现时 , Xi; = 1, 否则 Xi = 0. 我 们 已 经 计算 得 到 垃圾 邮件 
和 正常 邮件 的 后 验 概率 , 即 


= 


人 


2 n en 》 
> 7-1 pe(J) ll pxile (Tilj) 


现在 我 们 想 根 据 响 应 向 量 (zi1,… ,zn) 来 判断 一 封 邮件 是 垃圾 还 是 正常 的 邮件 . 最 
大 后 验 概率 准则 是 这 样 判断 的 , 如 果 下 面 式 子 成 立 , 则 判断 该 邮件 为 垃圾 邮件 : 


P(O=1|Xi1= 21, ,Xn, = 2) > PP(O=2|X1 = 71, ,Xn = Tn)) 


或 等 价 地 


TIzx le(zill) > pe(2 I le (Til2). 
= 


8.2.1 ”点 估计 

在 一 个 估计 问题 中 , 给 定 X 的 观测 值 x, 后 验 分 布 抓 住 了 z 提供 的 所 有 相关 
信息 . 而 另 一 方面 , 我 们 对 概括 了 后 验 性 质 的 某 些 量 很 感 兴趣 . 比如 , 点 估计 是 一 个 
数值 , 它 表 达 了 我 们 关于 @ 取 值 的 最 好 猜测 . 
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先 来 介绍 一 下 有 关 估 计 的 概念 和 术语 . 为 简单 起 见 , 假设 9 是 一 维 的 , 但 是 这 
里 讨论 的 方法 同样 适用 于 多 维 . 估计 值 指 的 是 在 得 到 实际 观察 值 x 的 基础 上 我 们 
选择 的 0 的 数值 . 6 的 数值 是 由 观测 值 z 的 某 些 函 数 9 决定 的 , 即 0 = g(x). 随机 
变量 6 = g(X) 也 称 为 估计 量 , 之 所 以 说 6 是 随机 变量 是 因为 估计 的 结果 由 随机 
的 观测 值 所 决定 . 

利用 不 同 的 函数 9 可 以 构造 不 同 的 估计 量 , 其 中 总 有 一 些 会 是 比较 好 的 估计 . 
举 一 个 极端 的 例子 , 考虑 函数 g(z) = 0. 估计 量 6 = 0 根本 没有 利用 到 数据 , 因此 
并 不 是 一 个 好 的 估计 . 目前 有 两 个 最 流行 的 估计 量 . 

(a) 最 大 后 验 概率 估计 量 . 观测 到 x, 在 所 有 的 9 中 选 6 使 得 后 验 分 布 达 到 最 
大 , 当 有 很 多 这 样 的 取 值 时 ,0 可 在 备 选 量 中 任意 选 定 . 


(b) 条 件 期 望 估 计量 , 曾 在 4.3 节 中 介绍 . 这 里 选 定 的 估计 量 为 96= E[|X = 4]. 

条 件 期 望 估计 量 将 在 8.3 节 仔 细 讨 论 . 届时 将 称 它 为 “最 小 均 方 (LMS) 估计 ”， 
因为 它 有 个 很 重要 的 性 质 ， 在 所 有 估计 量 中 使 均 方 误差 达到 最 小 (后 面 会 讨论 ). 这 
里 有 两 条 关于 最 大 后 验 概率 估计 量 的 注释 . 


(a) 如 果 9 的 后 验 分 布 关 于 (条 件 ) 均值 对 称 并 且 是 单 峰 的 [此 时 ,8 的 后 验 分 
布 列 (或 后 验 概率 密度 函数 ) 只 有 一 个 最 大 值 ], 并 且 最 大 值 在 均值 处 取 到 , 这 时 最 
大 后 验 概 率 估计 量 和 条 件 期 望 估计 量 恰好 一 样 . 比如 例 8.3 中 , 后 验 分 布 保持 为 正 
态 的 情况 . 

(b) 当 © 是 连续 型 变量 , 有 些 时 候 最 大 后 验 概率 估计 量 6 的 具体 值 可 以 通过 
分 析 的 方法 得 到 . 比如 在 对 0 没有 限制 的 情况 下 , 将 fejx(9|z)( 或 log Jeix(glz)) 的 
导数 取 为 0, 得 到 一 个 方程 , 由 方程 解 出 9 即 可 . 但 是 在 其 他 情况 下 , 可 能 会 需要 通 
过 数值 计算 的 搜寻 . 


I 


. 


点 估计 

。 估 计量 是 一 个 形式 为 @ = g(X) 的 随机 变量 , 其 中 g 为 某 些 函数 . 不 同 的 
9 形成 不 同 的 估计 量 . 

。 当 观测 的 随机 变量 X 的 值 x 得 到 以 后 , 就 得 到 估计 量 日 = 9(X) 的 取 值 
6, 我 们 称 之 为 估计 值 . 

。 一 旦 观测 到 X 的 取 值 x, 则 最 大 后 验 概 率 估计 量 就 赋予 估计 6 一 个 值 , 它 
是 在 所 有 9 中 使 得 后 验 分 布 达 到 最 大 时 所 对 应 的 参数 值 

。 一 旦 观测 到 X 的 取 值 x, 条 件 期 望 估计 量 赋予 估计 6 的 值 是 E[@|X = 4]. 


例 8.7 考虑 例 8.2 中 朱丽叶 第 一 次 约会 迟到 的 随机 变量 X. X 服从 区 间 [0,8] 上 
的 均匀 分 布 , 且 参 数 © 是 未 知 随机 变量 , 其 先 验 概率 密度 函数 fe 为 [0,1] 上 的 均 
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匀 分 布 (随机 变量 9 的 单位 是 小 时 ). 在 那个 例子 中 , 对 任意 的 x e [0,1], 后 验 概 率 


密度 函数 是 

车 化 < 0 < 1, 

felx(0|7) = 0 .|logz| 

0， 其 他 . 
对 于 给 定 的 z, jeix(olz) 在 6 的 取 值 范围 [x,1] 中 随 9 增 大 而 减 小 . 因而 最 大 后 验 
概率 佑 计 就 是 z. 注意 这 是 一 个 很 “乐观 ”的 估计 . 如 果 朱 丽 叶 在 第 一 次 约会 时 只 
迟到 了 一 小 会 儿 (zx s 0), 则 未 来 约会 迟到 时 间 的 估计 是 很 小 的 . 
而 条 件 期 望 估计 就 没有 这 么 乐观 了 . 事实 上 , 有 

1 1 一 7 
了 EI9IX = 了] =/ 0 i 和 

图 8.4 描绘 了 两 个 估计 量 随 着 x 变化 的 函数 . 可 以 看 出 对 任意 的 迟到 时 间 zx, E[B|X = 
z] 比 9 的 最 大 后 验 概 率 估 计 要 大 . 


最 大 后 验 概率 估计 
"条件 期 望 估计 


0 0.2 0.4 0.6 0.8 a 


图 8.4 例 8.7 中 , 最 大 后 验 概 率 估计 和 条 件 期 望 估计 的 比较 


例 8.8 考虑 例 8.4 中 的 模型 , X 为 观测 到 的 正面 朝 上 的 总 次 数 . 假设 6 的 先 验 分 
布 (正面 朝 上 的 概率 ) 是 [0,1] 上 的 均匀 分 布 . 下 面 来 计算 9 的 最 大 后 验 概率 估计 
和 条 件 期 望 估计 . 

如 例 8.4 中 所 示 , 当 X = 时 © 的 后 验 概率 密度 函数 服从 参数 为 a = 十 1 
和 =n 一 kk 十 1 的 贝塔 分 布 : 


1 


felx (Olk) = B(E 十 lm 一 大 十 了 
其 他 . 


0*(1 一 0)"”*， 若 90e |[0,1] 
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后 验 概率 密度 函数 是 单 峰 的 . 为 了 确定 峰值 的 位 置 , 将 表达 式 0*(1 - 0)"” 看 作 随 
9 变化 而 变化 的 函数 . 令 概率 密度 函数 的 导数 取 值 为 0, 得 到 方程 


kO*-1(1— 0)"*— (n— kor(1— 0"* l=0 


由 此 推出 


= 
Nn 


这 就 是 最 大 后 验 概率 估计 . 
为 得 到 条 件 期 望 估计 , 用 贝塔 分 布 的 期 望 公式 ( 见 例 8.4): 
二 1 


注意 , 当 n 的 取 值 很 大 时 , 最 大 后 验 概率 估计 和 条 件 期 望 估计 是 基本 一 致 的 . 

如 果 没 有 附加 的 假设 条 件 , 点 估计 的 准确 性 是 没有 多 大 保障 的 . 举例 来 说 , 最 
大 后 验 概 率 估计 可 能 和 后 验 分 布 的 主体 部 分 相距 其 远 . 因此 , 总 希望 得 到 关于 估计 
的 一 些 附加 信息 , 例如 条 件 均 方 误差 EI(6 - 6)2?|X = z]. 在 8.3 节 中 , 我 们 将 要 进 
一 步 讨论 这 个 问题 . 特别 地 , 要 通过 对 前 面 两 个 例子 的 回顾 来 分 别 计算 最 大 后 验 概 
率 估计 和 条 件 期 望 估 计 的 条 件 均 方 误差 . 


8.2.2 ”假设 检验 


在 一 个 假设 检验 问题 中 , 9 取 01,… ,gm 中 的 一 个 值 , 其 中 m 是 一 个 取 值 较 
小 的 整数 . 经 常 处 理 的 问题 是 m = 2, 就 是 二 重 假设 检验 问题. 称 事件 {9 = 0;} 为 
第 i 个 假设 , 记 为 已 ， 
旦 观测 到 XX 的 取 值 z, 就 可 以 用 贝 叶 斯 准则 对 每 个 i 计算 后 验 概率 P(© = 
6:|XX=z) = pelx (09i|z). 接着 根据 最 大 后 验 概率 准则 选 出 后 验 概率 最 大 的 假设 ，( 如 
果 几 个 假设 都 拥有 相同 的 最 大 后 验 概率 , 可 以 随机 选择 .) 正如 前 面 提 到 的 , 最 大 后 
验 概率 准则 在 所 有 准则 中 使 得 做 正确 决定 的 概率 达到 最 大 , 从 这 个 意义 上 来 说 它 是 
最 理想 的 . 


ee 


假设 检验 的 最 大 后 验 概率 准则 
。 给 定 观测 值 x 最 大 后 验 概率 准则 选择 使 后 验 概率 P(9 二 bi|X 二 z) 最 大 
。 等 价 地 , 也 就 是 使 pe(0i)pxle(z|9)(X 离散 ) 或 pe(0;)fxie(z|9)(X 连续 ) 
达到 最 大 的 假设 万 
。 与 其 他 决策 准则 相 比 , 最 大 后 验 概率 准则 对 任意 观测 值 x 使 得 选择 错误 
假设 的 概率 , 也 即 犯 错 的 概率 达到 最 小 . 
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有 了 最 大 后 验 概 率 准 则 , 就 可 以 计算 相应 的 做 出 正确 决策 (或 错误 决策 ) 的 概 
率 , 它 是 关于 z 的 函数 . 特别 地 , 如 果 gwMaApP(z) 是 最 大 后 验 概率 准则 在 X= z 的 情 
况 下 选 出 来 的 假设 , 那么 做 出 正确 决策 的 概率 是 


| 


P(9 = 9MAP(Z)|X = 7). 


进一步 地 , 5; 是 按 最 大 后 验 概 率 准 则 选择 假设 五 ; 时 所 对 应 的 x 的 集合 , 则 做 出 正 
确 决 策 的 总 概率 为 


P(9 = 9MAP(X)) = >_P(9 = 0;, X € 9i)， 


相应 犯错 误 的 概率 是 
Y_P(© £0,,X € 5;). 


2 


下 面 是 一 个 典型 的 用 最 大 后 验 概 率 准 则 计算 二 重 假设 的 例子 . 
例 8.9 有 两 枚 不 均匀 的 硬币 , 记 为 硬币 1 和 硬币 2, 正面 朝 上 的 概率 分 别 为 pz 和 
p2. 随机 选择 一 枚 硬币 (每 枚 有 相同 的 入 选 概率 ), 希望 在 一 次 抛 人 硬币 结果 的 基础 上 
判断 这 枚 硬币 是 硬币 1 还 是 硬币 2. 令 9 =1 和 6 = 2 分 别 代 表 假设 “选择 硬币 
1” 和 “选择 人 硬币 2”. 记 X= 1 表示 便 币 正面 朝 上 , X = 0 表示 反面 朝 上 . 

利用 最 大 后 验 概 率 准 则 , 比较 pe(1)pxje(z|1) 和 pe(2)pxje(z|2) 的 大 小 , 并 且 
认为 所 投 硬 币 就 是 表达 式 取 值 相应 较 大 的 那个 . 由 于 pe(1) = pe(2) = 1/2, 只 须 比 
较 pxje(7x|1) 和 pxle(zl2). 比如 若 pi = 0.46, ps = 0.52, 投掷 结果 是 反面 , 注意 到 


P( 反 面 |96 = 了 刀 =1-0.46>1-0.52=P( 反 面 |9 = 2)， 


因而 认为 所 抛掷 的 是 硬币 1. 

假设 现在 将 所 选 的 硬币 投掷 了 n 次 , X 是 正面 朝 上 的 次 数 ， 以 前 的 做 法 仍 
然 正确 , 根据 最 大 后 验 概率 准则 选择 观测 结果 最 有 可 能 发 生 的 假设 (建立 在 假设 
pe(1) = pe(2) = 1/2 的 基础 上 ). 因而 当头 = 时 ,车 


pi(1 — pi1)™ * > ps(l — pa)"®), 
则 认为 9 = 1, 否则 , 认为 8 = 2. 图 8.5 解释 了 最 大 后 验 概率 准则 . 
如 图 8.5 中 所 示 , 最 大 后 验 概率 准则 的 特征 是 典型 的 二 重 假设 检验 问题 的 决策 
准则 它 的 实现 是 将 观测 空间 划分 为 两 块 没有 交集 的 子 区 域 , 在 每 个 子 区 域 中 接 
受 一 种 假设 ， 在 这 个 例子 中 , 最 大 后 验 概率 准则 通过 kr* 的 划分 而 得 以 实现 : 当 
kr* 时 接受 9 = 1, 否则 接受 9 = 2. 犯错 误 的 总 概率 由 全 概率 公式 计算 可 得 : 
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pa 
us 
如 
| 
人 
| 
br 
~ 
V 
二 
十 
2 
人 
| 
SS 
~ 
人 
wy 


其 中 c(k) 是 正规 范 化 常数 . 图 8.6 给 出 了 一 类 门限 决策 准则 的 犯错 误 的 概率 , 所 
谓 门限 决策 准则 是 由 一 个 pr* 决定 的 决策 准则 , 当天 和 入 时 接受 8 = 1, 否则 接受 
9 = 2. 因此 门限 决策 准则 的 犯错 误 的 概率 是 关于 k* 的 函数 . 最 大 后 验 概率 准则 是 
一 个 特殊 的 门限 决策 准则 , 此 例 中 pr = 24, 这 个 准则 使 得 做 正确 决定 的 概率 达到 
最 大 , 从 而 犯错 的 概率 达到 最 小 . 


1 


0.8 
(0.6 
后 验 概率 
0.4|- P(O=1|X= 内 | 
I 
1 
0.2 1 
I 
1 
I 
0 1 
10 20 I 30 40 50 
1 
选择 ©=1 选择 6 一 2 


图 8.5 最 大 后 验 概 率 准 则 在 例 8.9 中 的 应 用 , 其 中 , n = 50, pl = 0.46, pa = 0.52, 计算 后 验 


P(9 =ilX=k)=c(k)pe(i)P(X = k= 


= c(k)pe(i)pi (1 — pi)" “, i= 1,2, 
其 中 c(k) 是 正规 范 化 常数 , 选择 有 最 大 后 验 概率 的 假设 8 = ?， 由 于 例 中 pe(1) = 
pe(2) = 1/2, 按 最 大 后 验 概率 准则 , 只 须 选择 使 p?(1 一 pi;)”“ 达到 最 大 的 假设 9 = i. 
在 例 8.9 中 , k* = 24, 当天 入 k* 时 接受 9 = 1, 否则 接受 日 = 2 


下 面 介绍 的 是 通信 工程 中 的 一 个 经 典 例 子 . 
例 8.10 (信号 检测 和 匹配 的 滤波 器 ) “ 某 发 射 机 传送 两 条 可 能 的 信息 中 的 一 条 . 如 
果 传 送 的 是 信息 1 则 6 = 1, 否则 © = 2. 假设 两 条 信息 传送 的 概率 是 相等 的 , 即 
pe(l) = pe(2) = 1/2. 

为 了 提高 抗 噪声 的 能 力 , 发 射 机 使 用 一 种 信号 使 得 传送 信息 的 时 间 延 长 . 实际 
上 , 发 射 机 发 出 信号 5S = (951,… ,5%), 其 中 5; 为 实数 . 车 9=1( 或 6=2), 则 5 
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是 确定 的 序列 (@1,… ,an)( 或 (0 … ,bn)). 假设 两 个 备 选 信息 有 相同 的 “能 量 ”， 
即 f 十 … 十 中 二 克 十 … 十 如 . 接收 机 能 够 观测 到 传送 的 信和 号, 但 是 伴随 着 附加 品 
声 的 干扰 . 具体 地 , 它 的 观测 值 为 


X; = Si + Wi, Ce 


其 中 假设 Wi 服从 标准 正 态 分 布 , 互相 独立 , 且 与 信号 独立 . 
0.5 
0.48 
0.46 
0.44 
0.42 上 ”犯错 误 的 概率 
0.4 
0.38 
0.36 
0.34 
0.32 


0 10 20 30 40 50 
最 大 后 验 概率 闹 值 太 
准则 的 阔 值 
8.6 ”犯错 的 概率 随 门限 决策 准则 中 的 阔 值 #*(k < kh* 时 接受 9 = 1, 否则 接受 9 = 2) 变 
化 的 图 示 . 和 图 8.5 一 样 , 相关 的 参数 为 n = 50, pl = 0.46, pa = 0.52. 最 大 后 验 概 
率 准则 的 阐 值 为 kx* = 24, 此 时 犯错 的 概率 最 小 


在 9=1 的 假设 下 , X; 是 独立 正 态 随机 变量 , 均值 为 ui, 方差 为 1. 因此 


1 更 2 
1)= @—((Z1—Q1) 十 … 十 (Zn 一 an) )/2 
类 似 地 ， 
1 2 艺 
二 (510) + (bn)?) /2 


根据 贝 叶 斯 准则 , 第 一 条 信息 被 传送 的 概率 是 


exp{ 一 (Cl — 1) ++ (Ln — 0n)")/2} 
exp{—((21 — 41)? + + (Tn — an)2)/2} + exp{—((z1 — 01)? + + (Cn bn)2)/2} 


展开 指数 式 的 二 次 项 , 并 利用 假设 十 … 十 虽 = 好 十 … 十 忆 , 表达 式 化 简 为 


ealz1 十 … 十 anzm) 


P(9 下 1 去 本 7) 过 pelx (1|z) 一 e(aiz1 十 … 十 anzZnm) 十 Ge(blZ1 十 … 十 bmZm) 


计算 P(6 = 2|X = z) 的 公式 也 是 类 似 的 , 把 分 子 中 的 a; 换 作 b; 即 可 . 
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根据 最 大 后 验 概率 准则 , 要 选择 使 后 验 概率 最 大 的 假设 , 即 


选 9 = 1,， 如 果 ai > >》 Di 


于 


二 


选 9 = 2， 如 果 >》 ai < > bizi. 


= 


i=1 


(如 果 内 积 相 等 , 则 随机 选择 一 个 假设 .) 这 种 特殊 的 用 来 判断 传送 信号 的 结构 称 为 
匹配 的 滤波 器 : 根据 得 到 的 信号 (x1,… ,zn) 计算 内 积 ?1 Qizi 和 >i_1 bixi, 选 


出 取 值 高 的 作为 假设 (也 就 是 最 但 
这 个 例子 可 以 推广 到 mm > 2 的 各 


对 于 信息 &, 发 射 机 发 出 确定 的 信号 (alz，…: 
都 相等 ,这 样 在 相同 的 噪声 模型 下 , 通过 类 似 的 计算 , 最 大 后 验 概 率 准则 解码 得 到 


的 信号 (z1,… ,zn) 将 会 是 i_1 ainzi 取 值 最 大 的 信和 号. 


本 节 将 详细 讨论 条 伯 
的 性 质 (最 小 均 方 , 简称 LMS) . 我 


上 46 匹配 ?9 ). 
4 形 , 其 中 每 条 信息 传送 的 概率 是 相等 的 . 假设 


,ank)， 对 于 每 个 FE， (af)? 十 … 十 (as)? 


8.3 ” 贝 叶 斯 最 小 均 方 估计 


F 期 望 估 计量 . 特别 地 , 它 上 共有 使 可 能 的 均 方 误差 达到 最 小 


门 还 将 讨论 它 的 一 些 其 他 性 质 . 


考虑 在 没有 观测 值 X 的 情况 下 用 常数 9 来 估计 © 这 个 简单 的 问题 . 估计 误 


差 6 一 © 是 随机 的 ( 


决定 的 数 , 可 以 达到 最 小 . 在 这 种 准 贝 


结论 . 


对 任何 估计 0, 有 


因为 9 是 随机 的 ), 但 是 均 方 误差 E[(9 -0)?] 是 一 个 由 0 所 
I 下 , 最 好 的 估计 是 6 = E[e], 下 面 来 验证 这 一 


E[(© — 0)2] = var(© — 0) + (E[(© — 0)])? = var(©) + (E[©] — 0)?; 


9 不 改变 随机 变量 9 


9 


假设 现在 我 们 


观测 值 X 来 估计 @， 


第 一 个 等 号 用 的 是 公式 E[23] = var( 2) + (E[2])? 第 二 个 等 号 成 立 是 因为 减 去 常数 
的 方差. 现在 注意 到 var(6) 与 6 是 无 关 的 . 因此 只 要 选择 使 
(Ele] - 9)? 达到 最 小 的 8 也 就 是 6 = 也 


( 见 图 8.7). 
同时 要 求 均 方 误差 最 小 . 一 旦 得 到 X 


的 值 z, 情况 就 变 得 和 之 前 讨论 的 一 样 , 但 是 我 们 已 经 进入 一 个 新 的 “世界 ”, 就 


条 件 期 望 EI6|X = x] 在 所 有 常数 0 


最 小 . 


是 所 有 的 事情 都 取决 于 X = xz， 所 以 可 以 把 之 前 的 结论 拿 过 来 并 且 得 到 结论 : 
使 得 条 件 均 方 误差 E[(© -全 ?IX = 可 达到 
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估计 的 均 方 误差 
E[(8- 人 =var(8) +(E[O] 一 的 


E[9] 6 


8.7” 均 方 误差 EB[(© 一 六 3] 是 关于 估计 值 6 的 二 次 函数 , 在 6 = BE[O] 时 达到 最 小 . 均 方 误 


差 的 最 小 值 是 var(9) 


广义 上 来 说 , 估计 量 为 9(X) 的 ( 非 条 件 ) 均 方 估计 误差 定义 为 
E[I(9 — g(X))1]. 


如 果 我 们 将 E[e|X] 视 为 X 的 函数 或 估计 量 , 下 面 的 分 析 说 明 在 所 有 可 能 的 估计 
量 中 , g(X) = E[e|X] 使 得 均 方 误差 最 小 .” 


关于 最 小 均 方 估计 的 重要 事实 
。 在 没有 观测 值 的 情况 下 , 当 6 = E[9] 时 E[(9 一 3] 达到 最 小 : 


EI(6© 一 FI])< EI(6@ 一 他 对 所 有 6 成 立 . 


。 给 定 X 的 取 值 x, 当 6= EI6|X=z] 时 EE[((6 一 9?|X=z] 达到 最 小 : 


E[I(9 — EIO|IX = 2])?|X=2]<El((O-0?X=zx| 对 所 有 06 成 立 . 


Q@ 对 于 任意 给 定 X 的 取 值 x, g(x) 是 一 个 数 , 因而 


E[(© — EIO|X = 2z])*|X=z| <E[(©— g(x))*|X = 2]. 


办 此 


E[(e — EIO|X])?|X] < E[(© — g(X))?*|X], 
这 是 关于 两 个 随机 变量 (X 的 函数 ) 的 不 等 式 . 对 两 边 取 期 望 再 用 全 期 望 公式 , 得 到 结论 


E[(© — EI©|X])*] < El(e -9CX))3]， 


对 于 所 有 估计 量 9(X) 成 立 . 
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。 在 所 有 的 基于 X 的 © 的 估计 量 9g(X) 中 , 当 g(X) = 了 [9|X] 时 均 方 估计 
误差 FEI(9 - 9(X))?] 达到 最 小 : 


EI(9 -BIO|X])"] < EI(© 一 g(X))”] 对 所 有 估计 量 g(X) 成 立 . 


例 8.11 设 9 服从 [4,10] 上 的 均匀 分 布 . 假设 在 观测 9 时 伴 有 随机 误差 W. 特别 
地 , 观测 到 随机 变量 的 值 是 


X=O+W, 


假设 W 是 服从 [-1,1 上 的 均匀 分 布 且 与 8 独立 . 

为 计算 E[6|X = 2], 注意 到 fe(0) = 1/6 当 4<9<10, 否则 fe(0)=0. 在 @ 
取 9 的 情况 下 , X 就 是 6+W, 并 且 服从 于 [9 一 1, 89 十] 区间 上 的 均匀 分 布 . 因此 ， 
联合 概率 密度 函数 为 


fosx(0,7) = fe(0)fxle(al0) = 了 了 = 总， 


上 式 当 4<9<10 且 09-1<x<9+1 时 成 立 , 对 于 其 他 (9, x) 取 值 为 0. 图 8.8 
右边 的 平行 四 边 形 是 fe,x(9,x) 取 值 不 为 0 的 (bz) 取 值 的 集合 . 


X=O+W 
WW 在 区 间 [1, 
上 均匀 分 布 


， 最 小 均 力 估计 
EIO|X+t 


8.8 例 8.11 中 的 概率 密度 函数 . 9 和 X 的 联合 概率 密度 函数 是 在 右 图 中 平行 四 边 形 内 
的 均匀 分 布 . 给 定 随机 变量 X = 9 十 W 的 取 值 x, 9 的 最 小 均 方 估计 由 x 和 右边 所 
示 的 分 段 线 性 函数 决定 


给 定 X = z, 后 验 概率 密度 函数 fejx 相应 于 平行 四 边 形 的 纵 断 面 是 均匀 分 布 
的 . 因此 EI6IX = zx] 是 断面 的 中 点 , 在 这 个 例子 中 恰好 是 x 的 分 段 线性 函数 . 在 
给 定 X = 2z 的 情况 下 , 均 方 误差 定义 为 E[(6 - E[6|X])?|X = xz], 是 9 的 条 件 方 
差 . 它 是 x 的 函数 , 解释 见 图 8.9. 
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人 估计 的 条 件 
均 方 误差 


3 5 9 11 L 


图 8.9 例 8.11 中 的 估计 的 条 件 均 方 误差 , 它 是 关于 X 的 观测 值 z 的 函数 . 注意 , 有 一 些 观 
测 值 要 优 于 其 他 的 . 比如 , 若 X = 3, 则 可 确定 © = 4 且 条 件 均 方 误差 为 0 


例 8.12 考虑 例 8.7 中 朱丽叶 第 一 次 约会 中 迟到 时 间 服 从 [0,6] 区 间 上 均匀 分 布 
的 随机 变量 X. 这 里 6 是 一 个 未 知 的 随机 变量 , 它 的 先 验 分 布 fe 服从 [0,1 上 的 
均匀 分 布 . 在 那个 例子 中 , 已 知 最 大 后 验 概 率 估 计 等 于 xz 且 最 小 均 方 估计 是 


1 1 一 7 
Blelx = 可 = | oF re 
下 面 来 计算 最 大 后 验 概率 估计 和 最 小 均 方 估计 的 条 件 均 方 误差 . 给 定 X = z， 
对 于 任意 的 6 有 


BG -OX = | 0-0 ra 


zx 


于 
交 1 
去 02 2 | 沁 . 
. ( 00+0°) i 


52(1 一 Z) 1—2? 
llogzl 2llogz|' 
对 于 最 大 后 验 概率 估计 , 6 = x, 条 件 均 方 误差 是 


322 一 47z 十 1 
2|logz| 


E[(0 -96)?| 和 = 如 二 2z2 十 


对 于 最 小 均 方 估计 ,0 = (1 一 z)/|logz|, 条 件 均 方 误差 是 


2 1 一 22 1— zx\” 
ee) 0 logz/ 


图 8.10 绘制 了 两 种 估计 (最 大 后 验 概率 估计 和 最 小 均 方 估计 ) 的 条 件 均 方 误 
差 . 可 以 看 出 最 小 均 方 估计 有 一 致 的 相对 较 小 的 均 方 误差 . 这 是 最 小 均 方 估计 量 的 
总 体 优 良性 能 的 体现 
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估计 值 


最 天 后 验 概率 合计 || 
: 最 小 均 方 估计 


0.8 


0.9 


珊 


8.10 例 8.12 中 最 大 后 验 概率 估计 和 最 小 均 方 估计 的 比较 


例 8.13 考虑 例 8.8 中 的 模型 , 观测 ”次 投掷 一 枚 不 均匀 的 硬币 正面 朝 上 的 次 数 
X. 假设 6( 正 面 划 上 的 概率 ) 的 先 验 分 布 是 [0,1 上 的 均匀 分 布 . 在 那个 例子 中 , 当 
X= 时, 后 验 密 度 是 参数 a 二 k++1 和 =n 一 kk 十 1 的 贝塔 密度 , 且 最 大 后 验 概 
率 等 于 k/n. 通过 贝塔 密度 的 矩 估计 公式 (参见 例 8.4), 得 到 

(k++ 1)(k+2):.… (k++ m) 
(n+2)n+3). (n+m+1) 


Elom| 和 = 对 = 


特别 地 , 最 小 均 方 估计 为 
k+l 


给 定 了 =%, 任意 估计 0 的 条 件 均 方 误差 是 


E[(0 ~ 8)*|X = =0 — 20E[OIX = K+EIO*|X= 


2 pk+l (k+l)(k+2) 
3 
最 大 后 验 概率 估计 的 条 件 均 方 误差 是 
党 
BIO -eyIx N=B|(F-e) Ix = 
k2? ok kil (k+l)(k+2) 
nn 2 人 
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最 小 均 方 佑 计 的 条 件 均 方 误差 是 


-人 人 (和 . 


图 8.11 画 出 了 投 撕 n= 15 次 的 结果 . 值得 注意 的 是 , 和 前 面 的 例子 一 样 , 最 小 均 方 


估计 有 一 致 的 相对 较 小 的 条 件 均 方 误差 . 


0 s| | 一 一 最 大 后 验 概率 估计 
- - 一 最 小 均 方 估计 


0.015 


0.01 


0.005 


天 


图 8.11 在 投 皂 15 次 (n = 15) 的 情况 下 , 最 大 后 验 概 率 估计 和 最 小 均 方 估计 及 其 条 件 均 方 误 


差 之 比较 (参见 例 8.13) 


8.3.1 估计 误差 的 一 些 性 质 
将 最 小 均 方 估计 和 相应 的 估计 误差 分 别 记 为 


ee=EelX，6=6-9， 


随机 变量 6 和 6@ 有 一 些 很 有 用 的 性 质 , 它们 在 4.3 节 中 已 经 
只 是 简单 地 重复 引述 如 下 (注意 记号 上 的 变化 , 在 4.3 节 


数 记 为 XX, 而 在 这 里 却 分 别 记 为 X 和 9). 


E 导 得 到 , 而 在 这 里 


P, 观测 值 记 为 Y, 待 估 参 


估计 误差 的 性 质 
。 估 计 误 差 9 是 无 偏 的 , 具体 说 来 它 的 条 们 


期 望 和 非 条 介 


期 望都 是 0: 
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EI6] = 0，EI6IX=zj=0， 对 所 有 7z. 
e。 估计 误差 日 和 估计 量 日 是 不 相关 的 : 
cov(6,9) = 
。G@ 的 方差 可 以 分 解 为 


var(©) = var(©) + var(©). 


例 8.14 ” 称 观 测 久 是 无 信息 的 , 如 果 均 方 误差 E[6?] = var(6) 和 var(9)(9 的 无 
条 件 方差 ) 是 一 样 的 . 什么 时 候 会 出 现 这 样 的 情形 呢 ? 
利用 公式 


var(O) = var(©) + var(©), 
由 上 式 看 出 X 是 无 信息 的 当 且 仅 当 var(6) = 0. 一 个 随机 变量 的 方差 为 0 当 且 仅 
当 该 随机 变量 是 一 个 常数 , 与 其 均值 相等 . 于 是 得 到 结论 X 是 无 信息 的 当 且 仅 当 
估计 9 = E[6|X] 与 B[8] 相等 ( 对 于 X 的 任意 取 值 ). 
若 9 和 Xi 是 独立 的 , 对 于 所 有 的 z 都 有 EIGIX = zj] = E[9], 很 直观 地 可 以 
看 出 事实 上 X 是 无 信息 的 . 反 过 来 却 不 成 立 : 有 可 能 EIe@|X = 2z] 总 是 等 于 常数 
EB[9], 但 是 6 和 X 不 独立 . (你 能 构造 一 个 例子 吗 ?) 
8.3.2 ”多 次 观测 和 多 参数 情况 
前 面 的 讨论 都 是 建立 在 X 是 一 元 随机 变量 的 基础 之 上 .但 是 完整 的 论证 和 
结论 在 X 是 随机 向 量 X = (Xi1,… , Xn) 时 也 适用 . 因此, 均 方 估计 误差 在 选 
E[6|Xi,… ,Xa] 作为 估计 量 的 时 候 达 到 最 小 , 即 


EI(O —E QO|X1,.…: , Xn) < E[(O — g(X1,.… ,Xn)) ] 


对 于 所 有 的 估计 量 g(Xi1,…… ,XX%) 都 成 立 . 

这 就 对 一 般 的 最 小 : 的 方 估 计 给 出 了 完整 的 解决 方案 , 但 是 它 一 般 很 难 实现 , 3 
要 有 以 下 一 些 原因 : 

(a) 为 计算 条 件 期 望 E[6|X1,… ,Xn], 需要 建立 概率 模型 得 到 联合 概率 密度 函 
数 feo, x x,; 

(b) 即使 可 以 找到 联合 概率 密度 函数 , E[6|Xi,… , X%] 可 能 是 一 个 关于 X1,…， 
Xn 的 很 复杂 的 函数 . 
因此 , 实际 中 常常 求助 于 条 件 期 望 的 近似 值 , 或 者 更 关注 于 那些 并 不 最 优 但 是 
简单 而 易于 实现 的 估计 量 . 最 常用 的 方法 (在 8.4 节 讨 论 ) 加 入 了 线性 估计 的 约束 . 


i 
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最 后 , 我 们 考虑 估计 多 参数 91,.… ,Bm 的 情况 . 最 自然 的 是 考虑 准则 


El(81 - 01)°] +……+ El(Om -6n)， 


我 们 的 目的 是 求 估计 量 @1,.… ,Bw, 使 得 上 式 在 一 切 估计 量 中 达到 最 小 . 但 是 这 与 
寻找 每 个 6; 使 得 El(6, - 6)?] 达到 最 小 是 等 价 的 . 因此 , 多 参数 的 估计 问题 本 质 
-是 在 处 理 m 个 单 参数 的 估计 问题 ， 对 于 每 个 参数 8;, 其 相应 的 最 小 均 方 估计 为 


©; = E[O;|X1,.…. , Xn), 对 所 有 i 均 成 立 . 


8.4” 贝 叶 斯 线性 最 小 均 方 估计 


在 本 节 中 , 我 们 在 一 个 较 小 的 统计 量 的 集合 类 中 寻找 统计 量 使 得 均 方 误差 最 
小 : 那些 观测 值 的 线性 函数 的 集合 类 . 虽然 这 种 统计 量 会 导致 较 高 的 均 方 误差 , 但 
是 在 实际 中 有 明显 的 优势 .对 计算 要 求 简单 , 只 包括 均值 、 方差 以 及 观测 与 参数 之 
间 的 协 方差 . 在 最 大 后 验 估计 量 和 最 小 均 方 估计 量 难以 计算 的 情况 下 , 这 是 个 很 有 
用 的 蔡 代 估计 量 . 
基于 观测 Xi,… ,Xi 的 9 的 线性 估计 量 形 式 为 


OO=aXit+… 二 anXn+t+b. 


给 定 a1,… ,an,b, 相应 的 均 方 误差 是 


E[(O a1X1 an Xn 0)2]. 
线性 最 小 均 方 估计 选择 a1,.… ,ab 使 得 上 面 的 表达 式 取 最 小 值 . 我 们 首 多 
n 二 1 的 情况 , 然后 再 将 解法 推广 . 
8.4.1 一 次 观测 的 线性 最 小 均 方 估计 


现在 我 们 感 兴趣 的 问题 是 找到 8 的 线性 估计 aX 十 b, 使 得 均 方 误差 EI(e 一 
aX 一 0)3] 达到 最 小 . 假设 已 经 选 好 了 a, 如 何 选 5 呢 ? 这 个 问题 等 价 于 选择 常数 b 
来 估计 随机 变量 © - aX. 通过 8.3 节 最 初 的 讨论 , 最 好 的 选择 是 


解决 


[oy 


b= EO aX] = EO] — aE[X]. 


选择 了 5 之后, 剩 下 的 问题 是 选择 a 使 得 下 面 的 表达 式 取 最 小 值 : 


EI(9 ~ aX — E[O] + aE[X])]. 


将 表达 式 写 为 


var(O — aX)=0oé+ao% +2cov(O,—aX)= 08 +ao% — 2a.cov(O,X), 
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其 中 ce 和 ox 分 别 是 8 和 XX 的 标准 差 , 且 


cov(O, X) = EI(© — E[O])(X — ELX])] 


是 @ 和 XX 的 协 方差 . 为 使 var(9 一 aX)( 关 于 a 的 一 个 二 次 函数 ) 达到 最 小 , 令 表 
达 式 的 导数 为 0, 求解 a. 得 到 


ey cov(O, X) _ poe0ox _ 08 
0 
EE 中 
_ cov(O,X) 
加 OQOX 


是 6 和 XX 的 相关 系数 . 根据 a 的 选择 , 所 选 线性 估计 量 9 的 均 方 估计 误差 是 


var(O — ©) =o23 +a2o2 — 2a .cov(O, X) 


2 2068 2 ge 
=06 + 5 一 20- 一 DaeaxX 
Ox 


=(1 — p*)oé. 


线性 最 小 均 方 估 计 的 公式 
。 基 于 义 的 © 的 线性 最 小 均 方 估计 日 是 


cov(O, X) 


9= MS var(X) 


(X — E[X]) = El] Fp — E[X]), 


是 相关 系数 . 
。 所 得 均 方 估计 误差 是 
(1 — p?)oé. 


线性 最 小 均 方 估计 的 公式 只 包括 均值 、 方差 以 及 9 与 XX 间 的 协 方差 . 更 进 
步 , 它 有 个 直观 的 解释 . 为 描述 准确 起 见 , 假设 相关 系数 p 是 正 的 . 估计 量 以 6 的 
基本 估计 EI9] 为 基础 , 通过 X - EIX] 的 取 值 来 调整 . 举例 来 说 , 当 X 比 均值 大 ， 
则 XX 与 9 之 间 的 正 相 关系 数 告 诉 我 们 预期 中 的 9 将 大 于 它 的 均值 . 因此 , 佑 计量 
会 是 一 个 大 于 E[e] 的 取 值 . p 的 取 值 同样 也 会 影响 估计 的 质量 . 当 |p| 接近 1 的 时 
候 , 两 个 随机 变量 高 度 相 关 , 了 解 X 将 帮助 我 们 准确 地 估计 6, 从 而 均 方 误差 也 比 
较 小 . 
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最 后 注意 , 在 8.3 市 中 提 到 的 估计 误差 的 性 质 对 于 @ 的 线性 最 小 均 方 估计 量 
仍然 成 立 ( 参见 本 章 末尾 的 习题 ). 
例 8.15 ”回顾 例 8.2、 例 8.7 和 例 8.12 中 的 模型 , 说 的 是 朱丽叶 第 一 次 约会 中 迟 

到 时 间 X 服从 区 间 [0,6] 上 均匀 分 布 , 这 里 9 是 一 个 未 知 的 随机 变量 , 它 的 先 验 
分 布 fe 服从 [0,1] 上 的 均匀 分 布 . 下 面 来 求 基于 X 的 9 的 线性 最 小 均 方 估计 . 
利用 事实 E[IXI6] = 6/2 和 重 期 望 法 则 , X 的 期 望 值 是 


BE = EleXIol =B|3| = = 


2 4 


进一步 , 利用 全 方差 法 则 ( 同 第 4 章 例 4.17 中 的 计算 ), 得 到 


var(X) = 一 一 . 


现在 计算 X 和 9 间 的 协 方差 , 根据 公式 


cov(©, X) = EIOX] ~ EIOJE[X), 


EI63 = var(©) + (E[O])? = 站 ; 守 


EI[OX] = EI[E[OX|O]] = EIOE[X|®)] = a|S| 本 


其 中 第 一 个 等 式 用 的 是 重 期 望 法 则 , 第 二 个 等 号 成 立 是 因为 对 所 有 的 0， 


EIOX|I© = 0 = EI0X|© = 09] = 9E[X|O = ql. 


i 1 11 1 
cov(O, X) = E[OX] ~ E[O]EIX] = i 
线性 最 小 均 方 佑 计量 是 
过 和 cov(9,X) _1 1/24 TN 0 
= var(X) ons 7/144 ( 1) 9 


相应 的 条 件 均 方 误差 按照 例 8.12 中 公式 计算 ， 


~2(1 一 2Z) 加 1 一 22 

llogzl| 2|logz|’ 
再 将 0 = (6/7)z + (2/7) 代入 上 式 , 就 得 到 条 件 均 方 误差 . 在 图 8.12 中 , 我 们 将 线 
性 最 小 均 方 估计 量 、 最 大 后 验 概率 估计 量 和 最 小 均 方 估计 量 ( 见 例 8.2、 例 8.7 和 


E[(0 ~ 8)*|X=2]= 
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例 8.12) 放 在 一 起 比较 . 注意 到 最 小 均 方 估计 量 和 线性 最 小 均 方 估计 量 在 图 中 大 部 
分 感 兴趣 的 区 域 是 一 致 的 , 相应 的 条 件 均 方 误差 也 是 如 此 . 而 最 大 后 验 概率 估计 量 
与 其 他 两 个 估计 量 相 比 很 明显 有 较 大 的 均 方 误差 . 当 x 趋 近 于 1 时 , 线性 最 小 均 方 
估计 量 比 其 他 两 个 估计 量 的 效果 要 差 , 有 的 甚至 给 出 6 > 1 的 估计 值 , 这 已 经 在 9 


可 能 取 值 的 范围 之 外 了 . 


05 06 07 0.8 0.9 


化 


图 8.12 例 8.15 中 三 个 估计 量 及 其 条 件 均 方 误差 的 比较 


例 8.16 (不 均匀 硬币 的 线性 最 小 均 方 估计 ) ”再 考虑 例 8.4、 例 8.8 和 例 8.13 中 提 
到 的 硬币 投掷 问题 , 现在 来 求 线性 最 小 均 方 估计 量 . 在 这 一 问题 中 , 随机 变量 86( 正 
面 朝 上 的 概率 ) 的 先 验 分 布 是 [0,1] 上 的 均匀 分 布 . 将 一 枚 不 均匀 的 硬币 独立 地 投 
掷 n 次 , 观测 到 正面 朝 上 的 次 数 为 XX. 因此 如 果 9 等 于 0, 那么 随机 变量 X 服从 
参数 为 n 和 9 的 二 项 分 布 . 

分 别 计算 线性 最 小 均 方 估计 量 公 式 中 的 系数 . 已 知 E[8] = 1/2 和 


EIX] = EIEIXI9]] =EInel= 2. 


© 的 方差 是 1/12, 所 以 ve = 1/V123. 同样 , 前 面 的 例子 中 已 经 算得 EI[6?] = 1/3. 
当 9 取 值 为 0, X 的 (条 件 ) 方差 是 nb(1 - 9). 利用 全 方差 准则 , 得 到 
var(X) =E[lvarX|O] + var(E[X|O]) 
=E[nO(l — ©)| + var(nO) 


nn Nn nN 
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为 了 计算 X 和 6@ 的 协 方差 , 利用 公式 
cov(6,X) = E[OX] ~ E[OJE[X] =EI9X]- 
类 似 例 8.15 有 
E[OX] = EIEI9XIe]] = EIGEIXI9]| = EIne] 
所 以 
nn Nn nn 
cov(©, 人 

将 所 有 的 计算 结果 代入 线性 最 小 均 方 估计 量 的 公式 , 得 到 

AT n/12 n,_1 1 mm、 X+1 

0 nm + a | i 2) = n+2. 


注意 , 这 与 之 前 例 8.13 中 得 到 的 最 小 均 方 估 


EF 


方 估计 量 是 
仍然 是 最 优 的 . 


线 


生 的 , 就 如 例 8.13 吕 


计 是 一 致 的 . 这 并 不 奇怪 : 如 果 最 小 均 
此 估计 量 在 线性 估计 量 (更 小 的 类 ) 中 


FP 那 样 , 则 


8.4.2 ”多 次 观测 和 多 参数 情形 


现在 将 求 线 性 最 小 均 方 估计 


的 方法 


情形 


E 广 到 多 次 观察 值 


到 情形 并 不 带 来 本 质 上 到 困难 ， 


E 广 到 多 次 观测 的 情形 . 


由 单 次 观察 值 
用 完全 相似 的 方法 可 推 


的 
得 


导 
不 


到 线性 最 小 均 方 估计 


的 随机 变量 对 的 协 方 关 有 关 . 同 检 


使 其 在 所 有 估计 量 
找 每 个 6; 使 得 E[(6; 一 


次 观测 


量 1,… 


单 参数 的 线性 最 小 均 方 估计 的 求解 问题 . 
在 多 次 观测 且 相 互 独立 的 情 
简化 如 下 . © 是 均值 为 方差 为 8 的 


的 公式 . 线性 估计 的 系数 只 的 均值 、 方差 以 及 


4 和 各 观察 值 同 
EF 的 , 对 于 多 参数 9; 估计 , 考虑 准则 


Be = 01) | + :EOn— Om) 


,9@m 都 是 观测 值 的 线性 函数 的 情况 下 达到 最 小 . 这 与 寻 
- 6i)?] 达到 最 小 是 等 价 的 , 因此 本 质 上 将 问题 化 解 成 m 个 


况 下 , 单个 参数 的 线 怕 


随机 变量 , X1,…… 


FE 最 小 均 方 估 计量 


,Xn 是 具有 妇 


的 公式 可 以 
1 下 形式 的 多 


中 观测 误差 Wi; 是 均值 
相关 的 , 基于 观测 值 Xi,…… 


为 0 方差 为 o? 的 随机 变量 . 假设 6, Wi,… 
;Xn 的 © 的 线性 最 小 均 方 估计 量 是 


EE 
2 n > 
H/o0 4 Xi/ai 
Dh 1/0? l 


©= 
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上 面 的 结果 的 推导 是 非常 简单 的 . 我 们 的 目标 函数 为 
h(a ,an;b) = E[((© 一 aa an Xn — 0)2], 


为 求 其 最 小 值 , 令 其 关于 ao, … 


,an;b 的 偏 


导数 分 别 为 0. 经 过 计算 (本 章 末 尾 的 习 


题 中 给 出 


/cl 


8.4.3 ”线性 估计 和 正 态 模型 


pe 1/o3 


人 
六 1 


) 得 到 前 面 线性 最 小 均 方 估计 量 公 式 中 的 系数 为 


线性 最 小 均 方 估计 量 往生 


E 和 最 小 均 方 估 


计量 有 着 不 同 的 形式 ， 


因而 它 是 次 于 最 


小 均 方 估计 量 的 . 但 是 如 果 最 小 均 方 估计 量 恰好 是 观测 值 Xi， 


则 它 同 时 也 为 线 怕 


后 最 4 


\ 均 方 佑 计量 


是 , 也 即 两 


个 估计 量 重合 . 


这 种 情况 发 生 的 一 个 重要 例子 是 : © 是 一 个 正 态 随机 变量 , 观测 值 是 X; = 


日 十 Wi, 霸 
中 的 一 样 ， 
值 的 线性 函数 . 因此 , 最 小 1 


中 Wi 是 独立 零 均 值 的 正 态 噪声 项 , 同时 与 6 独立 . 这 个 模型 
我 们 看 到 @ 的 后 验 分 布 是 正 态 的 , 其 条 件 均值 


节 中 给 出 的 线性 最 小 均 方 
这 个 结果 还 可 以 进一步 
线性 函数 , 那么 


与 例 8.3 
是 观测 


E 


QO|X1,.… ,Xn 


鬼 方 估计 量 和 线性 最 小 均 方 估计 量 是 重合 的 . 事实 上 , 本 
汕 计 量 的 公式 和 例 8.3 中 后 验 均值 
E 广 : 如 果 9, Xi， 
最 小 均 方 村 计 和 线性 最 小 均 方 估计 量 是 致 的 . 它们 和 最 大 后 验 概 


9 的 表达 式 是 一 致 的 . 
“独立 正 态 随机 变量 的 


,Xn 都 是 一 些 


计量 也 是 一 致 的 , 这 是 


率 估 


变 , 在 保持 均值 、 
线性 最 小 均 方 估 
线性 最 小 均 方 估计 量 有 


杂 计 算 ), 男 一 种 是 模型 的 简化 ( 
8.4.4 ”线性 估计 的 变量 选择 


(最 大 后 验 概率 


一 种 是 i 
用 正 态 分 布 瞧 代 较 鸡 


于 正 态 分 布 是 单 峰 对 称 的 . 
上 面 的 讨论 提出 了 线性 最 小 均 方 估 计量 的 一 种 有 趣 的 1 


生 质 : 将 原 模 


型 进行 改 


方差 和 协 方差 不 变 的 情况 下 , 假设 牵涉 到 的 随机 变量 都 服从 正 态 
的 模型 中 得 到 的 估计 量 
计量 都 是 相同 的 ) 恰好 就 是 原 模 型 中 的 线性 最 小 均 方 估计 量 . 
两 方面 的 价值 : 


占 计量 、 计量 和 
因此 ， 
E (避免 公式 BIO|X] 的 复 
处 理 的 分 布 ). 


最 小 均 方 估 


十 算 的 简便 


下 面 指出 线性 最 小 均 方 估计 和 最 小 均 方 估计 的 一 个 重要 区 别 . 考虑 一 个 未 知 的 


随机 变量 9, 观测 值 Xi,:… 
其 中 函数 h 是 一 映射 . 经 过 
是 相同 的 , 因此 基于 地,:… 

羊 的 : 


计 是 一 机 


ElO|h(X1),.. 


,Xn 以 及 经 过 变换 的 观测 值 Y= 以 
过 变换 后 的 观测 值 页 和 原始 的 观测 值 X; 所 传达 的 信 
,Yn 的 最 小 均 方 佑 


,hh(Xn) 


Xi), 人 ) 7 
四 


/DDN 


计 和 基于 


XI ,Xn 的 最 小 均 方 估 


= EIO|Xi1,.… ,Xnl. 
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中 存在 © 的 合 汉 
而 Xi 


的 线 


的 好 的 估计 是 有 帮助 的 . 要 找到 合适 的 变换 并 不 总 是 很 容易 的 , 对 问题 结构 的 
E 可 以 提供 一 些 比较 好 的 选择 . 习题 17 就 是 一 个 简单 的 例子 . 


往 行 


的 信 
估计 


即将 


另 一 方 | 


昌 


六 ,Xn 是 从 导 
性 函数 中 找 出 9 


本 章 介 


县 . 我 们 


问题 . 


ANS 


的 佑 计量; 但 这 3 
个 分 布 独立 抽 相 
的 好 的 估计 是 不 可 


, 线性 最 小 均 方 估计 存在 的 前 提 是 在 观 计 


的 


| X1 


,Xn 的 线性 函数 类 


不 总 是 成 立 的 . 比如 , © 是 茶 分 布 的 未 知 方 关 ， 


随机 变量 .如 
能 的 . 这 也 说 明 对 观测 


此 水; 


8.5 


我 们 已 经 对 贝 叶 


斯 和 经 


统计 推出 


参数 看 作 具 有 2 


E 验 分 布 日 


小 结 和 讨 


了 统计 推断 方法 , 其 目的 是 从 概率 相关 的 观测 中 提取 未 知 变 量 或 模型 
关注 的 未 知 量 是 一 个 (也 可 


方法 做 了 


能 是 多 个 ) 参数 6， 


的 随机 变量 8. 最 感 兴趣 的 


论 


人 


区 分 . 本 章 着 重 讨论 贝 叶 斯 方法 ， 


是 


目标 


希望 从 X1,… ,XX 


的 变换 对 于 找到 


"Er 


三 O 〇 


并 且 讨论 了 假设 检验 和 


给 定 观 测 时 9 的 后 


验 分 布 . 后 验 分 布 从 原理 上 说 可 以 通过 贝 叶 斯 准则 来 计算 , 但 是 实际 上 , 这 是 一 项 


很 艰 


用 于 
条 件 


最 小 


都 服 


8.1 节 


工 . 


.学 生 南 菲 


巨 的 任务 . 


化 的 原则 . 线 怕 


FE 最 小 均 方 估 计 有 


最 大 后 验 概率 准则 (使 6 的 后 验 概率 达到 最 大 ) 是 用 途 广 泛 的 
十 计 和 假设 检验 问题 . 我 们 还 讨论 了 其 他 两 利 
期 望 ) 估计 量 和 线性 最 小 均 方 估计 量 . 它们 基于 使 6 和 它 的 估 


参数 估计 的 方法 : 


E 革 方法, 可 以 
最 小 均 方 (或 
则 的 均 方 误差 


计 


从 正 态 分 布 的 人 


贝 叶 斯 推断 与 后 


时 会 导致 较 大 的 均 方 误差 , 但 是 计算 简单 , 且 


只 与 相关 变量 的 均值 、 方差 和 9 与 观测 之 间 的 协 方差 有 关 . 在 9 


习 


验 分 布 


阿尔 泰 米 西 并 


股 入 了 一 间 章 


房子 ， 但 是 她 只 有 


为 了 确定 , 她 用 房子 


已 


出 结论 这 个 号 码 是 正 胡 


和 的 . 假设 在 任何 时 间 内 


1%, 那么 阿 


尔 泰 米 西 寻 
丽 在 概率 论 课堂 上 


的 结论 是 


每 道 题 有 两 


种 可 能 的 情况 ， 


题 ; 她 不 和 


(a) 假设 南 菲 丽 答对 了 第 一 道 题 , 她 的 确 知道 这 题 ] 


(b) 假设 南 菲 丽 答对 了 10 道 题 中 的 6 道 , 她 的 确 和 


么 ? 


机 拨打 了 2537267， 


恨 设 下 , 最 大 后 验 概率 估计 量 和 丙 


题 


50% 
结 


一 口 


三 


里 


和 观测 随机 变 


个 最 


小 均 方 估计 量 是 重合 的 . 


的 概率 确定 她 的 : 


果 接 到 了 “让 


电话 号 码 是 2537267. 
碌 ” 的 提示 , 她 因此 得 


< 人 


4 型 的 7 位 数 


话 号 码 忙碌 的 概率 是 


E 确 的 概率 为 多 少 呢 ? 
改选 择 题 测 试 . 试题 有 10 个 问题 , 每 个 问题 包含 3 个 选项 . 
题 与 题 之 间 是 独立 的 : 她 知道 答案 , 这 样 她 就 能 够 答对 选择 
道 答案 , 会 猜 答 案 , 但 是 有 1/3 的 概率 猜 对 答案 . 


E 确 答案 的 概率 是 多 大 ? 


I 道 答案 的 题 


数 的 后 验 分 布 列 是 什 


8.2 节 ”点 估计 , 假设 检验 , 最 大 后 验 概率 准则 
3. 相继 到 达 阿 尔 文 乘 车 的 公交 站 的 两 辆 公交 车 之 间 的 间隔 时 间 (分 钟 ) 是 一 个 随机 变量 , 其 
分 钟 数 服从 参数 © 的 指数 分 布 . © 的 先 验 概 率 密度 函数 是 


100， 若 be [0,175] 
fe(0) = 
3 其 他 . 


(a) 周一 , 阿尔 文 到 达 车 站 后 等 了 30 分 钟 汽车 才 来 . 问 @ 的 后 验 概率 密度 函数 、 最 大 
后 验 概率 估计 和 条 件 期 望 估计 分 别 是 什么 ? 
(b) 基于 周一 的 经 验 , 阿尔 文 决定 更 准确 地 估计 9, 于 是 记录 了 他 五 天 的 等 车 时 间 分 别 
为 30、25、15、40、20 分 钟 , 并 且 假 设 观测 值 相互 独立 . 问 基 于 五 天 的 观测 数据 , © 
的 后 验 概 率 密 度 函 数 、 最 大 后 验 概 率 估计 和 条 件 期 望 估计 分 别 是 什么 ? 
4. 学 生 们 在 概率 论 课 上 做 选择 题 , 共 10 道 , 每 题 三 个 选项 . 知道 答案 的 学 生 能 够 正确 作答 ， 
不 知道 答案 的 会 猿 答案 且 猜 对 的 概率 为 1/3. 每 个 学 生 属于 下 面 三 个 类 别 i = 1,2,3 的 
概率 是 相等 的 : 知道 每 题 答案 的 概率 0;, 其 中 01 = 0.3, 902 = 0.7, 03 = 0.95( 题 与 题 之 间 
独立 ). 假设 随机 抽取 的 一 个 学 生 答对 了 大 个 问题 . 

(a) 对 于 的 每 一 取 值 , 求 这 个 学 生 属 于 哪 一 类 别 的 最 大 后 验 概 率 估计 . 

(b) 设 M 是 这 个 学 生 知 道 答案 的 题目 数 . 在 这 个 学 生 答 对 了 5 道 题 的 情况 下 , 计算 M 
的 后 验 分 布 列 、 最 大 后 验 概率 估计 和 最 小 均 方 估计 . 

5. 将 例 8.4 中 不 均匀 硬币 问题 稍 加 变动 . 假设 正面 朝 上 的 概率 © 分 布 在 [0,1] 区 间 , 概率 密 
度 函 数 为 1 
fe(0)=2—4|3 


和 n 次 独立 硬币 投掷 的 结果 是 有 次 正面 和 n 一 次 反面 , 求 6 的 最 大 后 验 概率 
后 厅 . 


™ 


nn 


0|, 9 € [0,1]. 


6. 霍 许 难 教授 想 在 概率 论 考试 中 出 些 难题 , 她 正在 考虑 一 道 准备 在 下 次 考试 中 出 的 题目 . 因 
此 她 让 助教 解 这 道 题目 并 记录 解 题 时 间 . 这 道 题 是 难题 (9 = 1) 的 先 验 概率 为 0.3, 而 助 
教 解 题 时 间 的 条 件 概率 密度 函数 (以 分 钟 为 单位 ) 为 


一 0.04z 二: 
廊 elzle=D=4 若 5 < x < 60， 
0， 他 ， 
(9 = 1 表示 题目 难 ) 
一 0.16z 和 
frie(z|© = 2) = 28 ， 若 5 < x < 60， 
0, 其 他 ， 
(9 = 2 表示 题目 不 难 ), 其 中 cl 和 cs 为 归 一 化 常数 . 她 用 最 大 后 验 概率 准则 来 判断 这 个 


问题 是 否 难 . 

(a) 若 助 教 解 题 时 间 为 20 分 钟 , 她 将 接受 何 种 假设 ”而 犯错 误 的 概率 又 是 多 少 ? 

(b) 为 了 提高 她 的 判断 的 可 靠 性 , 霍 教授 又 找 来 四 个 助教 做 这 一 道 题目 . 助教 的 解 题 时 间 
是 相互 独立 且 服 从 第 一 个 助教 的 解 题 时 间 的 分 布 . 记录 的 解 题 时 间 分 别 是 10、25、15、 
分 钟 . 基于 这 五 个 观测 值 , 霍 教授 现在 将 接受 何 种 假设 ? 而 犯错 误 的 概率 又 是 多 少 ? 
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7. 现在 有 两 个 盒子 , 每 个 盒子 中 装 了 三 个 球 : 盒子 1 中 装 了 一 个 黑 球 两 个 白 球 , 盒子 2 中 


装 了 两 个 黑 球 一 个 
的 盒子 中 让 
(a) 描述 通过 抽 晶 


从 选 定 


(b) 假设 p= 1/2, 求 做 出 判断 时 犯错 的 概率 ， 
比较 . 


。 已 知 硬币 1 


录 在 首次 出 
P(Ho) 和 P( 瑟 ) 的 值 . 


岗 反面 朝 


白 球 . 我 们 随机 选择 一 个 全 3 
出 一 个 球 . 


, 其 中 选 盒 子 1 


H 球 的 颜色 来 判断 盒子 编号 的 最 大 后 验 概率 准则 , 
与 不 抽 球 就 做 出 


E 面 朝 上 的 概率 为 go( 假 设 Ho) 或 qi( 假 设 琴 ). 现 独立 重复 
上 之 前 正面 朝 上 的 次 数 . 假设 0 < ao < ai < 1 


的 概率 是 确定 的 p, 然后 


判断 时 犯错 的 概率 进行 


b 投 硬币 ， 并 记 


(a) 给 定 在 


计算 


择 


9.” 考虑 含有 rm 习 
是 基于 Xi1,… ,Xn 日 


ke* 


一 、 


的 最 大 后 验 概率 估计 


(z1,… ;zn) 是 观测 向 量 的 实际 值 


En— 


次 出 现 反面 之 前 出 现 了 上 次 ] 
眼 设 HH 正确 的 条 件 概 率 . 
(b) 考虑 决策 准则 : 当 


二 0.3, q1 = 0.7, P( 右 ) > 0.7. 在 P( 硬 ) 从 0.7 变 到 1 
使 犯错 概率 达到 最 小 ) 是 如 何 变 化 的 ? 


E 假 设 的 贝 叶 


之 k” 时 选择 备 择 假设 鲜 ， 


斯 
的 最 大 
(最 大 


段 设 检 验 问题 , 观测 
后 验 概率 估计 ，gn- 
后 验 概率 准则 只 利 


向 量 为 入 二 (Xi 


er 


, 且 令 


E 面 , 假定 先 验 概率 P(Ho) = 


中 pr* 为 一 非 负 整 数 , 否则 就 选择 
假设 Ho， 假 定 先 验 概率 PLUEo) = P( 画 ) = 1/2, 试 给 出 这 个 决策 准则 犯错 概率 的 
公式 . 当 kr 取 何 值 犯错 的 概率 达到 最 小 ? 还 有 其 他 类 型 的 决策 
低 犯错 的 概率 吗 ? 


(c) 假设 go 


E 则 可 以 进 


给 定 先 验 概率 
P(Hi) = 1/2, 


步 降 


的 过 程 中 , 最 优选 


,Xn). gn(X1,……, Xn) 
X1,… ,Xn-1) 是 基于 
观测 向 量 中 的 前 mn 一 1 个 元 素 ). x = 


X1,.… 0 


en(X1,..* ,Tn) = P(O #9n(T1, Zn) XI = x1,. ,Xn = Tn), 


1(X1,*…- 


i 


i = PIO FF galt NA 


为 相应 犯错 概率 . 证 明 


解 


的 准则 


8.3 节 


P), 即 得 结果 . 


,Xn-1) 看 作 基 


Bn (Ws se ) < B= (ML oe 有 


所 以 在 做 最 大 后 验 概率 决策 的 时 候 , 增加 数据 不 会 造成 犯错 概率 的 增加 ， 


将 gn_1(X1,.… 


于 观测 向 量 所 有 元 素 Xi1,…… ,Xn 


的 特殊 决策 准 


ep, = Cd) 


则 . 


贝 叶 斯 最 小 均 方 估计 


于 最 大 后 验 概 率 准则 g,,(X1,… , X) 使 犯错 概率 达到 最 小 (在 所 有 基于 Xi,… ,Xn 


10。 一 个 警方 的 测速 雷达 总 是 高 估 驶 来 汽车 的 速度 , 高 估 的 数量 服从 [0, 可 英里 /时 的 均匀 分 
布 . 假设 汽车 行驶 的 速度 服从 [55,75] 英里 /时 的 均匀 分 布 , 雷达 测量 的 汽车 速度 的 最 小 
均 方 估计 是 什么 ? 


11. 


12. 


13.” 


商店 购物 车 的 数 
入 商店 的 时 候 观 测 到 
布 . 现在 想 利 / 
可 参见 例 8.2. 


9 服从 1 到 100 之 间 的 均匀 分 布 , 购物 车 从 1 到 © 依次 编号 . 你 进 
的 第 一 辆 购物 车 的 编号 为 X, 并 假定 X 服从 1,… ,9 上 的 均匀 分 


] 此 信息 来 估计 6. 找 出 最 大 后 验 概率 估计 和 最 小 均 方 估计 


绘图 . 提示 : 


捅 虑 例 8.2 中 的 多 个 观测 变量 的 情况 : 给 定 9 = 9, 随机 变量 Xi ,Xn 相互 独立 且 服 
从 区 间 [0,9] 上 的 均匀 分 布 , 9 的 先 验 分 布 是 区 间 [0, 1] 上 的 均匀 分 布 . 假设 n> 3. 
(a) 给 定 Xi1,… ,Xn 的 值 z1,… ,zn, 求 © 的 最 小 均 方 估 计 . 
(b) 当 n = 5 时 , 画 出 最 大 后 验 概率 估计 量 和 最 小 均 方 估计 量 的 条 件 均 方 误差 关于 
无 = max{7z1,… ,Xn} 的 函数 图 像 . 
(c) 若 固 定 z = 0.5, 当 一 co, 最 大 后 验 概 率 估计 、 最 小 均 方 估计 和 相应 的 条 件 均 方 
误差 的 表现 如 何 ? 
(a) 将,… ,区 是 独立 同 分 布 的 随机 变量 , 了 = 克 十 :十 丈 . 证 明 E[Y|Y] = Y/n. 
(b) 9 和 W 是 独立 零 均值 正 态 随机 变量 , 方差 分 别 为 正 整 数 上 和 m. 利用 (a) 的 结论 
求 E[6|e 十 W], 并 确认 这 与 例 8.3 中 条 件 期 望 公式 是 一 样 的 . 提示 : 将 日 和 W 看 
作 独 立 随 机 变量 的 和 . 
(c) 重复 (b) 的 过 程 . 不 过 日 和 W 为 相互 独立 的 泊 松 随机 变量 , 均值 分 别 为 整数 入 和 
HK: 
解 (a) 根据 对 称 性 , 对 每 个 i 来 说 E[Yi|Y] 是 一 样 的 . 进一步 地 ， 
E[Yi + + YY] = EIYIY] =Y. 
所 以 , E[Y|Y] = Yn. 
(b) 可 以 将 @ 和 W 看 作 独 立 标准 正 态 随机 变量 的 和 : 
©=Oi+.…+Or, We= Wt + Wn. 
将 (a) 中 的 Y 看 作 日 十 W 得 到 
QO+W 
El[Qi:|© + W] = -一 . 
因此 ， 
ElOl@ + W] = Fle1+.…+OHO+W]= 有 (8 十 砚 )， 
根据 例 8.3 中 条 件 均值 的 公式 , 运用 到 本 题 的 情况 ( 零 先 验 均 值 、 单 观察 值 ), 得 
到 条 件 期 望 的 形式 为 
(Q+W)/oW oa 2 
(1/08)+ (1/o®) i 生生 Erme twW), 
与 这 里 的 答案 是 一 致 的 . 
(c) 回忆 独立 的 泊 松 随机 变量 的 和 的 分 布 还 是 泊 松 分 布 . 因此 (5) 中 的 论证 可 以 将 8 和 
W 看 作 入 和 个 均值 为 1 独立 泊 松 随机 变量 之 和 , 即 得 
Blel@+W= -2 (0+w). 


入 十 内 
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8.4 节 ” 贝 叶 斯 线性 最 小 均 方 估计 


14. 


15. 


16. 


17. 


18. 


19. 


考虑 例 8.11 中 的 随机 变量 9 和 X. 求 6 的 基于 X 的 线性 最 小 均 方 估计 量 以 及 相应 的 
均 方 误差. 
对 于 习题 11 中 的 购物 车 模型 , 找 出 最 大 后 验 概率 、 最 小 均 方 和 线性 最 小 均 方 估计 量 
画 出 它们 的 条 件 均 方 误差 关于 观测 到 的 购物 车 编号 的 函数 . 

随机 变量 X 和 9 的 联合 概率 密度 函数 形式 为 


其 中 c 是 常数 而 5 是 集合 
S={(z,0|0<z<2,0<0<2,7—-1<0<7}. 


现 希望 基于 X 来 估计 @. 

(a) 找 出 © 的 最 小 均 方 估计 g(x). 

(b) 计算 EI(9 一 g(X))?|X = zz], Elg(X)] 和 var(g(X)). 

(c) 计算 均 方 误差 E[I(e 一 9g(X))]. 它 和 Elvar(B|X)] 是 一 样 的 吗 ? 
(d) 用 全 期 望 公式 计算 var(9). 
(e) 求 9 的 基于 X 的 线性 最 小 均 方 估计 量 , 并 计算 其 均 方 误差 . 

@ 是 已 知 均值 为 1 方差 为 o? 的 正 随机 变量 , 将 基于 具有 形式 X = VeBW 的 测量 
进行 估计 . 假设 W 与 8 独立 , 其 均值 为 0, 方差 为 1 且 具 有 已 知 的 四 阶 矩 E[W 浊 . 因此 ， 
给 定 9© 的 情况 下 X 的 条 件 均 值 和 方差 分 别 为 0 和 @. 我 们 的 目的 是 在 给 定 观测 的 : 

下 来 估计 X 的 条 件 方差 9. 试 分 别 找 出 9 基于 X 的 线性 最 小 均 方 估计 量 以 及 基于 X? 
的 线性 最 小 均 方 估计 量 . 
吞 下 的 布 丰 针 . 医生 正在 医治 一 个 不 小 心 否 下 一 根 针 的 病人 . 决定 要 不 要 做 手术 的 关键 
是 未 知 的 针 的 长 度 9, 假设 服从 0 到 1(> 0) 之 间 的 均匀 分 布 . 希望 基于 X 射线 下 投影 长 
度 X 来 估计 9. 建立 二 维 坐标 系 , 记 


X= OcosW, 


其 中 W 是 针 和 某 一 轴 形 成 的 夹 角 (锐角 ). 假设 W 服从 区 间 [0, 7/2] 的 均匀 分 布 , 并 且 

与 © 独立 . 

(a) 试 求 最 小 均 方 估计 量 E[6|X]. 特别 地 , 写 出 Fxje (x|90),，fxle (x|90),，fx(7x)，felx 
(glz), 并 计算 EIeIX = z]. 提示 : 下 面 的 公式 将 很 有 用 : 


da = Va? C2 


a 


a =log(a+ Vo?—e?) 


b 1 a 

| aaa! ee 
(b) 试 求 9 基于 X 的 线性 最 小 均 方 估计 以 及 相应 均 方 误差 . 
光 通 信和 系统 中 的 光电 探测 器 对 给 定时 间 区 间 内 到 达 的 光子 进行 计数 . 用 户 通过 开关 光子 
传送 器 来 传送 信息 . 假设 传送 器 开 着 的 概率 是 p. 当 传送 器 开 着 的 时 候 , 传送 过 来 的 光子 
的 个 数 © 服从 均值 为 和 的 泊 松 分 布 . 传送 器 关 着 的 时 候 不 传送 光子 . 


遗憾 的 是 , 不 论 传送 器 是 关 还 是 开 , 由 于 “发 射 噪声 ”现象 的 存在 , 光子 都 有 可 能 被 
探测 到 . 发 射 噪声 被 探测 到 的 个 数 N 服从 均值 为 A 的 泊 松 分 布 . 因此 , 探测 到 光子 的 总 
数 X 在 传送 器 开 着 的 时 候 是 9 + N, 关 着 的 时 候 是 N. 假设 8 和 N 是 独立 的 , 于 是 
日 十 入 服从 均值 为 和 + 的 泊 松 分 布 . 
(a) 给 定 光 电 探测 器 探测 到 的 光子 数 久 传送 器 开 着 的 概率 是 多 少 ? 
(b) 描述 判断 传送 器 是 否 开 着 的 最 大 后 验 概率 准则 . 
(c) 基于 探测 到 的 光子 个 数 , 找 出 传送 光子 个 数 的 线性 最 小 均 方 估计 . 
20.” 球形 不 变 概率 密度 函数 的 估计 . 9 和 X 是 连续 型 随机 变量 , 其 联合 概率 密度 形式 为 


EE 


I 


站 


fe,x(0,7) 三 hh q(0, x) ) 


内 中 hh 是 非 负 标量 函数 , q(9, zx) 是 二 次 函数 , 其 形式 为 


q(0,7) =a(0— 0 +b(r— 7 — 2c(0— 0(r— 2). 


这 里 a 关 0,b,c,0,z 是 一 些 标量 . 对 于 任意 x(E[B|X = x] 有限 且 形式 固定 ), 给 出 最 小 
均 方 估 计 和 线性 最 小 均 方 估计 . 假设 对 于 所 有 的 0 和 z, gq(0,z) > 0, h 单调 递减 . 给 出 最 
大 后 验 概率 估计 并 说 明 它 和 最 小 均 方 估计 以 及 线性 最 小 均 方 估 计 是 一 致 的 . 

解 0 的 后 验 概率 密度 是 


©,x(0,x h(g(0,7 
tol) = {e209 ~ Moto,e), 
为 推导 最 小 均 方 和 线性 最 小 均 方 估 计 ， 首先 考 虑 最 大 后 验 概率 估计 , 假设 对 于 所 有 的 
9 和 zx， aq(0,z) > 0, h 单调 递减 ， 最 大 后 验 概率 估计 使 得 h(q(9, 7x)) 达到 最 大 , 又 因为 
h 是 减 函 数 , 则 要 选 9 使 得 g(6,z) 达到 最 小 . 令 q(9,z) 导数 为 0, 得 到 


六 3 C 四 
0 三 0 十 7 — 2). 


(这 里 用 到 结论 : 非 负 二 次 函数 的 最 小 值 在 导数 为 0 处 取得 .)” 
现在 将 要 说 明 6 和 最 小 均 方 估计 以 及 线性 最 小 均 方 估计 是 等 价 的 (不 需要 假设 对 于 
所 有 的 0 和 z, gq(9, zx) > 0, h 单调 递减 ). 注意 到 


0-5=0-61 人 £), 
将 gq(9, zx) 的 表达 式 代入 并 经 过 一 些 代数 计算 得 到 


gq(0, x) = a(0 + ( je 亏 )2. 


因此 , 对 于 任意 给 定 的 z， 后 验 概率 密度 是 关于 6 对 称 的 函数 ， 这 说 明 6 和 条 件 均 从 
EI[G|IX = z] 是 相等 的 , 只 要 EI6@|X = z] 有 限 . 此 外 , 我 们 有 


E[O|X] = 5 二 (xX 一 天) 


由 于 E[@|X] 是 X 的 线性 函数 , 因而 也 是 线性 最 小 均 方 估计 量 . 


@ 这 说 明 6 是 9 的 最 大 后 验 概率 估计 . 一 一 译 者 注 
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21.” 


22.” 


基于 两 个 观测 的 线性 最 小 均 方 估计 . 考虑 已 知 均值 和 方差 的 三 个 随机 变量 9、X 入. 
假设 var(X) > 0,var(Y) > 0 且 |p(X,Y)| 关 1. 给 出 基于 XX 和 YY 的 9 的 线性 最 小 均 
方 估计 . 
解 考虑 形式 为 日 = aX 十 bY +c 的 线性 估计 量 , 选择 a、 5b、c 使 得 均 方 误差 E[(© - 
a 一 bY 一 oj?] 达到 最 小 . 假设 a 和 b 已 经 选 定 . 不 难 验证 ， 


c= ElO] ~ aE[X] — bE[Y]. 


使 E[(6 一 aX 一 bY 一 c)?] 达到 最 小 . 接 下 来 的 问题 就 变 为 选择 a 和 b 使 下 式 达 到 最 小 


E[((© ~ E[O]) ~ a(X — E[X]) ~ b(Y ~ EIY)). 


将 上 式 展开 , 得 到 


var(O) + avar(X) + bvar(Y) — 2acov(©, X) — 2bcov(©,Y) + 2abcov(X,Y). 
假设 X,Y 是 不 相关 的 , 则 有 cov(X,Y) = 0. 将 均 方 误 差 的 表达 式 分 别 对 a 和 b 求 
导 , 令 导数 等 于 0 得 到 
_ cov(O,X) 六 三 cov(GY ) 


var(X) ” var(Y) 
因此 , 线性 最 小 均 方 估计 量 
A ,Cov(O,X) ,Cov(O,Y) 


如 果 X,Y 是 相关 的 , 同样 对 a 和 6 求 偏 导 数 , 令 式 子 为 0. 得 到 一 组 两 个 关于 ac 和 
的 线性 方程 , 解 得 


var(Y )cov(O, X) — cov(®, 站 (X,Y) 
var(X)var(Y) — cov2(X,Y) 


var(X)cov(O,Y) — cov(@， 2 Vv(X,Y) 
var(X)var(Y) — cov2(X,Y) 
注意 , 条 件 |p(X, 了)| 去 1 可 保证 上 面 两 式 的 分 母 不 为 0. 
基于 多 观测 的 线性 最 小 均 方 估计 . 设 © 是 均值 为 ,方差 为 o3 的 随机 变量 ,Xi ，X， 
是 具有 以 下 形式 的 多 个 观测 值 


b= 


Xi = ©O+ Wi, 
其 中 观测 误差 Wi 是 均值 为 0 方差 为 o? 的 随机 变量 , 并 且 假 设 8, Wi,… , Wi, 是 各 不 
相关 的 . 通过 取 遍 a1,… ,an,b 使 得 下 面 函数 取 到 最 小 值 


1 
2 


证 明基 于 观测 值 X1,… , X 的 © 的 线性 最 小 均 方 估计 量 是 


H/o + Dr Xi/o? 
2 io 1/0? 


h(a ,an,b) = =E[(O ~ aXi —...— an Xn — b)7), 


G 
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解 下 面 将 说 明 取 得 最 小 值 时 的 a1,… ,an,b 是 


Lo 1/07 5 
Piolo 7 Deol/o? 


为 此 , 只 要 说 明 af,… ,ao 大 是 满足 关于 at ,an,b 的 偏 导数 等 于 0 的 系数 即 可 


(对 于 非 负 二 次 函数 h, 导数 取 值 为 0 的 点 即 为 最 小 值 ). 
对 h 求 导 得 


Oh =B| (De -1)e+ Dow+e)|, 
0b CQ i=1 i=1 
"af,b* i=1 i=1 


根据 六 和 a? 的 表达 式 可 知 


条 


< 二 


用 这 个 等 式 以 及 事实 


得 到 
oh 


Ob 


-sl( 2 )e+ 和 e+ =0. 
0 a i=1 


利用 下 列 等 式 
EX 一 9)] = EI(© — p+ Wit+m(k— 0)) = 一 50， 


E[X;Wi] = E[(© + Wj)Wi] = 0， 对 所 有 i 冯 儿 


ee =Blx((- erD ew rw) 
放 i 一 1 
-Blx (0) + Dem) 
H 4 


中 最 后 一 个 等 式 成 立 是 由 于 bY 和 a 的 定义 . 


23.* 最 小 均 方 估计 的 性 质 . 设 9 和 X 是 两 个 具有 正方 差 的 随机 变量 . 令 日 
是 日 


的 线性 最 小 均 方 估计 量 , 6zr = OL - 6 是 相应 误差 . 同样 地 , 令 日 是 
均 方 估计 量 ElIe|Xl, 6 = 6 一 日 是 相应 误差 . 
(a) 证 明 估计 误差 9r 满足 


E[O©z] = 0. 


的 最 小 
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mm 


(b) 证 明 估 计 误 差 @x 和 观测 X 不 相关 . 
(c) 证 明 © 的 方差 可 以 分 解 为 


瑟 


var(O) = var(07) + var(Oz). 
(d) 证 明 最 小 均 方 估计 的 估计 误差 @ 与 观测 X 的 任何 函数 PXI) 不 相关 . 
(e) 证 明 日 未 必 与 X 独立 . 
(f) 证 明 线性 最 小 均 方 估计 误差 6r 未 必 与 观测 X 的 所 有 函数 P(X) 都 不 相关 ， 
EI6@rlX = 可 对 于 所 有 z 未 必 等 于 0. 
解 (a) 依 线性 最 小 均 方 估计 的 公式 
cov(O, X) 


er = E[O] 1 3 (X ~ ELX]). 


边 取 期 望 得 到 E[ 人 7] = E[9], 或 E[6z] = 0. 


(b) 利用 Bz 的 公式 得 到 


E[(O., ~ ©)X] =E (me 本 EL) ) xX- ex| 
ox 
_E [lelx Fo (O30) x BI = ex| 
Ox 
2 cov(©, et IX )” (EIOX] E E[O]E[X]) 
XxX X 
a (I 
Ox Ox 
2 
=cov(©O, X) (全 一 1) 
XxX 
=0. 
由 于 (a) 中 的 事实 E[@z] = 0, 说 明 cov(6z,X) = E[@LX] 一 EIOL]EIX] =0 ( 注 
意 到 EI6@zX] = 0, 这 刚刚 证 得 ), 即 估计 误差 Gz 和 观测 X 不 相关 . 
(c) 由 于 cov(B@L, 义 ) = 0, 而 QL 又 是 X 的 一 个 线性 函数 , 于 是 有 cov(6L, 6@L) = 0. 
因此 ， 


var(9) =var(OL — OL) = var(OL) + var(—OL) +2cov(OL,—O1) 
=var(OL) + var(OL) — 2cov(OL, O71) = var(OL) + var(OL). 


(d) 这 是 由 于 EIG6] = 0 以 及 
E[Oh(X)] =EI(E[GIX] - ©)h(X)] 
=E[IEIO|X]h(X)] — EIOh(X)] 
=E[IEIOh(X)|X]] ~— EIOh(X)] 
=E[IOh(X)] — ELOR(X)] 
=0. 


[ 
| 
[ 
[9 


24.” 


(e) 此 处 举 出 一 个 反例 : 设 © 和 X 是 离散 随机 变量 具有 联合 分 布 列 


De,x(0,z) = | 


立 , X 和 日 也 不 相互 独立 . 


1/3， 若 (9,z) = (0,0), (1,1), (=1,1), 


0， ”其 他 . 


(f) 设 9 和 XXX 是 离散 随机 变量 


有 联合 分 布 列 


De x(0， 7) 一 
0， 


1/3， 者 (bz) = (0,0)，(1 1，(1 一 1 


其 他 . 


在 这 个 例子 中 , X = |9|, 这 样 X 和 9 不 相互 独立 . 注意 到 对 于 任意 可 能 的 取 值 x 
有 E[6|X = xz] = 0, 因而 E[@|X] = 0. 所 以 有 9. 由 于 X 和 @ 不 相互 独 


这 个 例子 中 , 9 = |X|. 注意 到 E[X] = 0 和 EI@X] = 0, 所 以 X 和 @ 是 不 相关 的 . 依 


线性 最 小 均 方 估计 的 定义 ,Oz = 


独立 . 进一步 有 E[e©L|X = z] = (2/3) 一 


—1/3. 


E[8] = 2/3, 9r = (2/3) - 6 = (2/3) 
|z|, 这 依赖 于 x = 0 或 |z| = 1 取 值 为 2/3 和 


IX| 与 不 


基于 多 观测 的 线性 最 小 均 方 估计 的 性 质 . 令 96, Xi1,:… , X 是 给 定 方差 和 协 方差 的 随机 
变量 . 6r 是 © 的 基于 1,.… ,XX 的 线性 最 小 均 方 估计 量 , @r = 6r - 9 是 相应 误 


差 . 证 明 E[6z] = 0, 且 对 每 个 29r 和 X 不 相关 . 
解 ” 先 证 明 对 于 所 有 i, E[©LXi] = 0. 考虑 一 个 新 的 线性 估计 量 @L 十 aX 


其中 a 为 


个 标量 参数 . 由 于 QL 是 线性 最 小 均 方 估计 量 , 它 的 均 方 误差 E[(Oz 一 
新 估计 量 的 均 方 误差 h(a) = E[(QL 十 aXi; 一 6)?]. 因此 , 函数 h(a) 在 a = 0 的 时 候 取 
到 最 小 值 , 即 (dh/da)(0) = 0. 注意 到 


h(a) = E[(OL +axX 


i)*] = E[O7] + aE[OL Xi] + a2 E[LX?]. 


(dh/da)(0) =0 和 EIOLXi] =0 是 等 价 的 . 


现在 来 重复 上 面 的 论证 , 但 是 
E[Oz] = 0. 最 后 注意 ， 


cov(©L, Xi) = E[OL Xi] — E[OL]E[X;] =0-0:.ELX] = 0， 


所 以 Bz 和 X; 是 不 相关 的 . 


5 


9)?] 不 会 超过 


常数 1 来 代替 随机 变量 Xi. 经 过 相同 的 步骤 , 得 到 


第 9 章 ”经 典 统计 推断 


在 第 8 章 , 我 们 将 未 知 参数 看 成 随机 变量 , 利用 贝 叶 斯 方法 进行 统计 推断 . 我 
们 所 处 理 的 所 有 例子 都 是 单一 的 完全 确定 的 概率 模型 , 并 能 够 利用 贝 叶 斯 准则 对 它 
们 进行 推导 和 计算 . 

相 比 之 下 , 本 章 采 用 一 种 与 之 完全 不 同 的 原理 : 认为 未 知 参 数 9 是 确定 的 ( 非 
随机 ) 而 取 值 未 知 . 观测 X 是 随机 的 , 根据 9 取 值 的 不 同 , 服从 px(z;g)( 若 X 是 离 
散 的 ) 或 x(z;g)( 若 X 是 连续 的 ). 因此 , 我 们 将 同时 处 理 多 重 候选 模型 , 每 个 模型 
对 应 9 的 一 个 可 能 的 取 值 , 而 不 是 仅仅 处 理 单一 的 概率 模型 . 在 这 里 , 一 个 “好 ”的 
假设 检验 或 者 估计 过 程 是 指 在 每 个 候选 模型 为 真 模型 时 , 都 拥有 某 些 理想 的 性 质 . 
某 些 时 候 , 我 们 也 会 采用 保守 的 观点 : 一 个 过 程 不 会 被 认为 达到 我 们 的 要 求 , 除非 
它 在 9 取 到 最 坏 值 的 情况 下 也 能 保持 好 的 效果 . 


si ree 


px(';0) i 点 估计 ， 
0 ! ”区间 估计 等 ， 


二 


图 9.1 经 典 推断 模型 的 总 结对 于 9 的 每 个 取 值 , 有 分 布 px (z;9)， 利用 观测 X 的 取 值 x 
计算 点 估计 , 或 者 选择 一 个 假设 , 等 等 


总 的 来 说 ,在 我 们 的 记号 中 ,概率 和 期 望都 标明 了 相应 的 9 的 值 . 比如 ,， 记 
Eo[h(X)] 为 随机 变量 h(X) 的 期 望 , 不 过 在 求 期 望 的 过 程 中 , X 的 分 布 参数 为 0. 
类 似 地 , 用 记号 Po(4) 表示 一 个 事件 4 的 概率 . 需要 注意 的 是 , 这 里 指示 Pe(4) 对 
于 9 的 依赖 性 仅仅 是 函数 上 的 依赖 性 , 而 不 像 贝 叶 斯 分 析 中 那样 , 9 的 出 现 意味 着 
相应 的 概率 是 条 件 概率 . 

本 章 前 面 两 节 将 介绍 参数 估计 , 重点 是 最 大 似 然 估 计 和 线性 回归 方法 , 经 常 涉 
及 的 是 独立 同 分 布 的 观测 值 . 这 里 的 问题 和 第 8 章 讨 论 贝 叶 斯 估计 量 是 类 似 的 . 我 
们 的 目标 是 找到 那些 具有 优良 性 能 的 佑 计量 (观测 值 的 函数 ). 但 是 , 选取 的 准则 会 
有 所 不 同 , 因为 它们 必须 面 对 未 知 参数 的 所 有 可 能 取 值 . 比如 说 , 我 们 的 选取 准则 
是 要 求 估计 误差 的 期 望 为 0( 对 一 切 9 的 值 都 成 立 ), 或 者 对 于 未 知 参数 的 所 有 可 能 
取 值 , 估计 误差 在 很 大 的 概率 下 很 小 . 
第 3 节 将 讨论 简单 假设 检验 的 问题 . 这 里 提 及 的 方法 和 第 8 章 中 ( 贝 叶 斯 ) 最 
大 后 验 概率 方法 类 似 . 特别 地 , 我 们 计算 每 个 假设 成 立 的 似 然 程度 基于 已 经 观测 到 
的 数据 , 并 通过 两 个 假设 的 似 然 程度 的 比值 的 某 种 门限 值 来 选择 假设 . 

最 后 一 节 将 讨论 不 同类 型 的 假设 检验 问题 . 举 一 个 例子 , 假设 投 皂 一 枚 硬币 n 
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次 , 观测 到 由 投掷 结果 (正面 或 反面 ) 组 成 的 一 个 序列 , 我 们 想 知 道 这 个 硬币 是 否 
均匀 . 需要 检验 的 主要 假设 是 p = 1/2 是 否 成 立 , 其 中 p 是 正面 朝 上 的 未 知 概率 
备 择 假 设 p 了 1/2 是 复合 的 , 因为 它 由 很 多 甚至 可 能 是 无 限 多 的 子 假设 组 成 (比如 
p= 二 0.1,p = 0.499 9 等 ) 很 明显 , 在 观测 值 个 数 不 是 很 大 的 情况 下 , 没有 一 种 可 靠 
的 方法 能 够 区 分 p = 0.5 还 是 p = 0.499 9. 这 类 问题 通常 利用 显著 性 检验 的 方法 来 
解决 . 有 人 会 问 : 观测 数据 和 假设 p = 0.5 是 否 一 致 ? 粗糙 地 说 , 在 某 假设 基础 上 ， 
如 果 观 测 到 的 数据 看 起 来 不 像 是 在 这 个 假设 之 下 “偶然 ”产生 的 , 那么 该 假设 将 被 
拒绝 . 


本 章 的 主要 术语 、 问 题 和 方法 
。 经 典 统 计 将 未 知 参 数 看 作 是 待 确定 的 常数 . 对 于 未 知 参 数 的 每 个 可 能 取 值 
都 假设 一 个 单独 的 概率 模型 . 
。 在 参数 估计 中 , 希望 找到 在 未 知 参数 取 任何 可 能 值 的 情况 下 都 基本 正确 的 
估计 . 
。 在 假设 检验 中 , 未 知 参数 对 应 于 对 立 假设 取 有 限 的 m(m > 2) 个 值 . 想 要 
选择 一 个 假设 , 使 得 在 任何 可 能 的 假设 下 错误 的 概率 最 小 . 
。 在 显著 性 检验 中 , 希望 接受 或 者 拒绝 一 个 简单 的 假设 , 保持 错误 拒绝 的 概 
率 适当 的 小 . 
。 本章 主要 的 经 典 推断 方法 . 
(a) 最 大 似 然 估计 : 选择 参数 使 得 被 观测 到 的 数据 “最 有 可 能 ”出 现 , 比如 
使 获得 当前 数据 的 概率 最 大 ( 见 9.1 节 ). 
(b) 线性 回归 : 在 这 样 的 意义 下 找 出 一 组 成 对 数据 之 间 最 合适 的 线性 关系 : 
这 种 线性 关系 使 得 模型 与 真实 数据 之 间 差 值 的 平方 和 最 小 ( 见 9.2 节 ). 
(c) 似 然 比 检验 : 给 定 两 个 假设 , 根据 它们 发 生 “ 可 能 性 ”的 比值 选择 其 一 ， 
使 得 犯错 的 概率 适当 小 ( 见 9.3 节 ). 
(d) 显著 性 检验 : 给 定 一 个 假设 , 当 且 仅 当 观测 数据 落 在 某 个 拒绝 域 的 时 
候 拒 绝 该 假设 . 特别 设计 的 拒绝 域 使 得 错误 拒绝 的 概率 低 于 某 个 给 定 
国 值 ( 见 9.4 节 ). 


9.1 ”经典 参 数 估 计 


本 利用 经 典 的 方法 讨论 参数 估计 问题 , 所 谓 经 典 的 方法 就 是 将 参数 09 看 作 未 
知 常 数 , 而 不 是 随机 变量 . 先 介绍 一 些 定义 和 估计 量 的 相关 性 质 . 然后 讨论 最 大 似 
然 估 计量 , 它 可 以 看 作 是 经 典 统计 中 与 贝 叶 斯 最 大 后 验 概率 估计 量 相对 应 的 部 分 . 
最 后 关注 简单 但 是 重要 的 估计 未 知 均值 的 例子 , 如 果 可 能 的 话 估计 未 知 的 方差 . 本 
章 还 讨论 相关 的 问题 , 包括 建立 一 个 有 很 大 概率 包含 未 知 参数 的 区 间 (一 个 “置信 
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区 间 ”). 这 里 用 到 的 很 重要 的 方法 是 大 数 定 律 和 中 心 极限 定理 (参见 第 5 章 ). 


9.1.1 ”估计 量 的 性 质 


给 定 观 测 和 = 


(Xi1,… ,Xn), 估计 量 是 指 形式 为 6 = g(X) 的 随机 变量 . 注意 ， 


由 于 X 的 分 布依 赖 于 9, 因而 的 分 布 也 一 样 . 估计 量 @ 的 取 值 称 为 估计 值 . 
有 时候, 尤其 是 当 我 们 对 观测 数目 ” 起 的 作用 感 兴趣 时 , 用 @。 表示 一 个 估计 


量 . 当然 将 6 看 作 是 一 系列 估计 量 (分 别 对 应 ” 的 个 同 取 值 ) 也 是 合适 的 , 按照 


一 般 的 定义 , 8， 的 均值 和 方差 记 为 FEe[6] 和 vare(6u). Eole,] 和 vare(6") 都 是 


9 的 数值 函数 , 但 为 简单 起 见 , 情况 清楚 的 时 候 就 不 说 明 这 种 依赖 性 了 . 
下 面 介绍 和 估计 量 的 各 种 性 质 相 关 的 一 些 术语 . 


参数 的 分 布 ) 的 


.ee Py jE 


估计 量 的 相关 术语 


一 个 函数 . 
。 估计 误 差 , 记 为 6 定义 为 6 = On 一 0. 
。 估 计量 的 偏差 , 记 为 be(6u), 是 估计 误差 的 期 望 值 : 


。 ,的 期 望 值 、 方 差 和 偏差 都 依赖 于 9， 而 估计 误差 同时 还 依赖 于 观测 


。 称 9, 无 偏 , 若 Eo[98,,] = 0 对 于 9 所 有 可 能 的 取 值 都 成 立 . 

。 称 9, 渐 近 无 偏 , 若 limn ,= Eo[6] = 9 对 于 9 所 有 可 能 的 取 值 都 成 立 . 

。 称 9,, 为 0 的 相合 估计 序列 , 如 果 对 于 9 所 有 可 能 的 取 值 , 序列 昌 ,, 依 概 
率 收敛 到 参数 9 的 真 值 . 


be(O;,) = Eo[O,] — 0. 


我 们 不 可 能 指望 作为 随机 观测 的 函数 (估计 量 ) 正好 和 未 知 参数 真 值 9 相等 . 


因此 , 估计 误差 一 般 非 零 . 另 一 方面 , 对 于 0 所 有 可 能 的 取 值 , 如 果 平 均 估 计 误 差 是 


零 , 则 得 到 一 个 无 偏 的 估计 量 , 这 是 我 们 想 要 的 性 质 . 渐 近 无 偏 估计 只 需要 随 着 观 
测 数 目 ”的 增加 , 估计 量变 得 无 偏 即 可 , 这 在 n 比较 大 的 情况 下 也 是 所 乐 见 的 . 


除了 偏差 be(6 


n), 我 们 往往 对 估计 误差 的 大 小 感 兴趣 . 均 方 误差 Eo[62] 可 以 


捕捉 到 这 一 信息 . 下 面 的 公式 将 均 方 误差 、 偏差 和 9,, 的 方差 联系 在 一 起 :" 


@) 这 是 [a 公式 E[X?] = 


EelO%] = bi(On) + vare(On). 


(ELX])2 + var(X) 的 应 用 , 其 中 X = On 而 期 望 与 相应 于 0 的 分 布 有 关 . 我 们 


也 利用 了 事实 Eo[@n] = be(@n) 和 vare(@n) = varg (Sn -0) = vare (en). 
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这 个 公式 很 重要 , 因为 在 很 多 统计 问题 中 都 存在 等 式 右边 两 项 的 平衡 . 方差 的 减少 
总 是 伴随 着 偏差 的 增 大 . 当然 , 一 个 好 的 估计 量 会 让 两 项 的 取 值 都 比较 小 . 
下 面 将 讨论 一 些 具体 的 估计 方法 , 首先 是 最 大 似 然 估 计 . 这 是 一 种 适用 范围 较 
广 的 估计 方法 , 与 之 前 贝 叶 斯 推断 中 的 最 大 后 验 概率 估计 有 很 多 相似 之 处 . 然后 我 
们 会 考虑 简单 但 是 重要 的 佑 计 随 机 变量 均值 和 方差 的 例子 . 这 将 和 第 5 章 我 们 讨 
论 的 大 数 定律 有 一 些 联系 . 


9.1.2 ”最 大 似 然 估计 


设 观测 回 量 X = (Xi ,Xnh) 的 联合 分 布 列 为 px (x;90) = px(zx1,.… ,zn;0)(9 
可 为 向 量 或 数 ， 其 中 z= (zi1,… ,zn) 为 X 的 观测 值 . 那么 , 最 大 似 然 估计 是 使 
(9 的 ) 数值 函数 px (xz1,… ,zn;9) 达到 最 大 的 参数 值 ( 见 图 9.2): 
06, = arg Max px (T1, ,Tn; 0). 


当 X 为 连续 型 随机 变量 时 , 可 将 同样 的 方法 用 于 联合 概率 密度 函数 fx (zx;0)( 取 代 
px(x;0)), 即 


0. = arg max fx (71, 全: 


称 px(z;b)( 或 fx(2z;0), 若 X 为 连续 型 随机 变量 ) 为 似 然 函数 . 


Px(% 9 最 大 似 然 
观测 过 程 


DPX(2 0,,) 


图 9.2 ”最 大 似 然 估 计 的 说 明 : 假设 X 是 离散 的 , 9 在 有 限 集 {91,… ,9m} 中 取 值 . 给 定 观 测 
值 X = zz, 对 于 每 个 多 可 计算 得 到 似 然 函数 px(z;0;) 的 值 , 从 而 可 以 选 出 使 px (zx;9) 
最 


大 的 9 的 取 值 


很 多 应 用 中 都 假设 观测 X; 独立 , 从 而 对 于 每 个 i,X; 是 离散 的 随机 变量 , 似 然 
图 数 的 形式 为 


Dx(Z1 2nm30) = I 2x (zi;0) 


在 这 种 情况 下 , 为 了 分 析 和 计算 的 方便 可 让 其 对 数 达 到 最 大 , 下 面 的 式 子 称 为 对 数 
似 然 函数 ， 


In px(z1,° ,zn;0) =1n [ [px.(zi;0) = > ln px,(xi;0) 
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当 X 为 连续 型 随机 变量 时 , 类 


表达 式 值 最 大 


似 地 


ln fx(z1,... ,Tn;0) = In I fx;(xi;0) 一 >》 hm fx, (7xi; 0). 
i=1 i=1 


概率 密度 函数 取代 分 布 列 , 取 遍 0 使 得 下 面 


此 处 对 于 术语 “ 似 然 ” 需 要 一 些 的 解释 . 对 于 已 知 X 的 观测 值 x, px(z;9) 不 


是 未 知 参数 等 于 9 的 概率 . 事实 


FE:, 这 是 当 参 数 取 值 为 8 时 , 观测 值 z 可 能 出 现 的 


概率 . 因此 , 为 取 定 9 的 估计 值 时 , 我 们 会 问 这 样 的 问题 : 基于 已 知 的 观测 , 9 取 什 


么 值 可 使 观测 值 最 可 
回忆 在 贝 上 


Re 


能 出 现 呢 ? 这 就 是 术语 “ 似 然 ” 的 本 意 . 
-斯 最 大 后 验 概率 估计 中 , 估计 的 选择 是 使 表达 式 pe(9)pxje(x|9) 取 
遍 0 达到 最 大 , 其 中 pe(9) 是 包含 一 个 未 知 离散 参数 9 先 验 分 布 列 . 


因而 


若 将 


px(z;9) 看 作 条 件 分 布 列 , 可 将 最 大 似 然 估 计 解 释 为 具有 均匀 先 验 的 最 大 后 验 概 率 


估计 . 所 请 均匀 先 验 分 布 列 是 


信 4 


0 


X1,… ,Xn(Xi 二 1 若 正 面 峭 
的 概率 9. 这 和 例 8.8 中 贝 叶 


估计 量 是 
比较 最 大 似 然 估 计量 和 例 


es 
意思 


很 有 


有 均匀 先 验 密度 的 最 大 后 验 概率 
例 9.1 让 我 们 来 回顾 例 8.2, 朱丽叶 迟到 的 
是 未 知 参数 . 在 那个 例子 中 , 我 们 用 服从 均匀 先 验 概率 密度 函数 fe(0)([0,1] 
上 的 均匀 分 布 ) 的 随机 变量 6 建立 参数 的 模型 , 并 说 明了 最 大 后 验 概率 估计 是 zx. 
在 本 节 的 经 典 内 容 中 , 没有 先 验 , 9 被 当 作 常 数 , 但 
例 9.2 ( 伯 努 利 随机 变量 的 均值 估计 ) 


率 密度 函数 的 峰值 (最 大 后 验 概率 估计 ) 1 
上 的 次 数 . 从 而 /mn 也 是 9 的 最 大 似 然 估计 , 所 以 最 大 似 然 估计 量 
十 


无 偏 的 . 同时 它 具 有 相合 性 ， 


肯 对 可 


所 有 0 都 
息 的 先 验 分 布 列 . 同样 地 , 对 于 连续 的 取 值 有 界 的 0, 可 将 最 大 似 然 估计 解释 为 


档 


具有 


~ 


的 先 验 概 率 , 也 即 没有 


赴 计 , 对 所 有 的 9 其 均匀 先 验 密度 为 fe(9) 
二 间 为 关 , 服从 [0,6 


的 均匀 分 布 ， 


是 最 大 似 然 估计 仍 是 0=z 


现在 我 们 希望 根据 ”次 独立 投掷 的 结果 
上 , 反之 X; = 0) 来 估计 一 枚 不 均匀 的 硬币 正面 
斯 的 做 法 类 似 , 假设 了 一 个 均匀 先 验 密度 . 发 现 后 


任何 


一 C. 


其 中 
区 间 


朝 上 
验 概 


现在 9 = k&/n, 其 中 天 是 观测 到 正 


On 


nN 


8.8 中 用 


是 


十 及 mn 


面向 


因为 根据 弱 大 数 定 律 , 6。 依 概率 收敛 到 6. 


大 似 然 估计 kJn 与 通过 贝 叶 大 


[方法 得 到 的 线 怕 


而 当 n 一 co 时 , 两 个 估计 渐 近 
布 中 的 参数 ) 


本 昌 人 作 


例 9.3 (估计 指数 随机 变量 分 
设 第 i 个 顾客 到 达 服 务 台 时 刻 


是 款 . 假设 第 


考虑 顾客 到 达 东 服务 台 
i 个 时 间 间 隔 X; = 一 于 -1( 通 


w= 0) 服从 未 知 参数 为 9 的 ] 
(这 是 第 


解释 为 到 达 的 速率 ). 


6 革 学 习 的 泊 松 到 达 模 型 .) 现 禾 


指数 分 布 , 并 


随机 变量 Xi1,… 


贝 叶 斯 方法 得 到 的 线性 最 小 均 方 估计 量 是 
的 . 我 们 说 过 , 给 了 一 个 均匀 先 验 , 后 验 均值 为 (1 


1)/(n 十 2). 因此 , 最 
FE 最 小 均 方 估计 量 相 近 却 不 一 样 . 然 


的 时 间 问 题 . 


常设 


,Xn 是 相互 独立 的 . 
E 想 用 观测 Xi1,… , X。 来 估计 4 的 值 (可 
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相应 的 似 然 函 数 是 
x;0)= | fx,(r;0 = 1 [0 
i=1 i=1 
ln fx(z;0) = nln0 — 0y, 
中 


对 0 求 导 得 到 (mw/b) 一 yn, 令 其 为 零 , 得 到 在 9 > 0 上 使 mn 产 (z;b) 最 大 的 是 


0 = n/yn. 所 得 估计 量 是 
y\-! 
8。= (站 
Tn 


它 是 到 达 间 隔 时 间 样 本 均值 的 倒数 , 可 以 解释 为 经 验 的 到 达 速 率 . 
注意 到 由 弱 大 数 定律 , 当 n 一 co 时 ,Yi,/n 依 概 率 收敛 到 E[Xi] = 1/0. 这 说 明 


9 依 概率 收敛 到 0, 因而 估计 量 是 相合 的 . 
ee 人 单个 未 知 参 数 的 情况 . 下 面 的 例子 中 含有 二 维 参数 . 
,Xn 来 估 


例 9.4 ( 正 态 量 均 值 和 方差 的 估计 ) ”考虑 通过 n 个 观测 Xi 
计 正 态 en: 参数 向 量 为 0 = (1,v). 相应 的 似 然 函 效 旦 


Nn 


(zi—p)2/20 


(2; ;KH,U -JIA (Zi; Kv 


通过 计算 上 式 可 以 写作 ” 
1 ns2 n(mn — kh) 
fx (zx; 1,v) = (CEE em 全 区 】 op {ee 


其 中 Mn, 是 随机 变量 


@ 为 核实 之 , 对 于 二 1 ,mm 


Tm Mn 14)? = 


(Ti /2 3 (zi Mn 
对 i 求 和 并 注意 到 
D5i— mna)(mn 一 入 = (mn 一 内 ) 王 em ) = 0. 
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的 取 值 , s2 是 随机 变量 


的 取 值 . 对 数 似 然 函 数 是 


‘lnv 


nm > 


In fx (2;1%) = —3 D(2m) 


2v 


2 
将 上 式 分 别 对 yj 和 w 求 导 , 令 所 得 导数 为 零 , 得 到 估计 值 和 估计 量 ， 


六 = mass), OO», = (M,, 52). 


Nn 


LT 


注意 , M6 是 样本 


值 , 同时 型 可 以 看 成 “样本 方差 ”. 易 证 , Eo[52] 当 


n 增 大 时 


收敛 到 v, 因而 52 是 渐 近 无 偏 的 . 同样 运用 弱 大 数 定律 可 知 , Mn 和 52 分 别 是 


和 vw 的 相合 估计 量 . 


最 大 似 然 估计 有 一 些 明显 的 性 质 . 比如 说 , 它 遵循 不 变 原 理 : 如 果 6 是 69 的 


最 大 似 然 估计 , 那么 对 于 任意 关于 9 映射 的 函数 h, 5 = h(9) 的 最 大 似 然 估计 


相合 的 . 
另 一 个 有 趣 的 性 质 是 当 0 是 标量 参数 的 时 候 , 在 某 


是 h(9%,). 对 于 独立 同 分 布 的 观测 , 在 一 些 适合 的 假设 条 件 下 , 最 大 似 然 估计 量 是 


些 合适 的 条 件 下 最 大 似 然 


估计 量具 有 渐 近 正 态 性 质 . 特别 地 , 可 以 看 见 (6 -9)/c(6n) 的 分 布 接近 标准 正 态 
分 布 , 其 中 o?(6;) 是 9,, 的 方差 . 因此 , 如 果 我 们 还 能 够 估计 c(6), 就 能 进一步 
得 到 基于 正 态 近似 的 误差 方差 估计 . 当 0 是 向 量 参数 , 针对 每 个 分 量 可 以 得 到 类 似 


的 结论 . 
最 大 似 然 估计 


值 . 


大 似 然 估计 . 


计 的 每 个 分 量 都 具有 相合 性 且 渐 近 正 态 . 


。 已 知 随机 向 量 X = (Xi,… , Xn) 的 观测 值 为 x = (zl ,zn), 其 联合 分 
布 列 为 px(z;0)( 或 连续 情况 下 的 联合 概率 密度 函数 fx (zx; 0)). 

e。 最 大 似 然 估计 是 使 得 似 然 函 数 px(z;0)( 或 fx(z;0)) 达到 最 大 值 时 0 的 取 
。 关 于 0 一 一 映射 的 函数 h(9) 的 最 大 似 然 估计 是 Pb), 其 中 6, 是 9 的 最 


。 当 随 机 变量 X; 是 独立 同 分 布 时 , 在 某 些 合适 的 假定 条 件 下 , 最 大 似 然 估 


9.1.3 ”随机 变量 均值 和 方差 的 估计 


现在 来 讨论 一 个 简单 而 重要 的 问题 : 如 何 估计 一 个 概率 分 布 的 均值 和 方差 . 这 
个 问题 与 之 前 例 9.4 讨论 的 问题 有 些 类 似 , 不 同 的 是 , 此 处 没有 正 态 分 布 的 假设 . 事 


9.1 经 典 参数 估计 397 


实 上 , 这 里 展示 的 估计 量 不 需要 用 到 与 px(z;g)( 或 fx (x;9), 当 X 为 连续 型 随机 变 
量 时 ) 有 关 的 知识 

假设 观测 Xi,.… , X 是 独立 同 分 布 的 , 均值 为 未 知 参数 9. 9 最 自然 的 估计 量 
是 样本 均值 : 


DO .Ga 
re 
nN 


由 于 Eg[Mn] = Eo[X] = 0 因而 此 估计 量 是 无 偏 的 . 它 的 均 方 误差 和 方差 相等 , 是 
v/n, 其 中 是 X; 的 方差 . 由 计算 看 出 ,Mi 的 均 方 误差 并 不 依赖 于 9. 更 进一步 ， 
由 弱 大 数 定律 , 估计 量 依 概率 收敛 到 0, 因而 具有 相合 性 . 
样本 均值 未 必 是 方差 最 小 的 估计 量 . 比如 说 , 考虑 估计 量 6,, = 
测 的 一 个 估计 (这 个 估计 总 是 零 ). 9;, 的 方差 是 零 , 但 偏差 bo (8,) 
依赖 9 的 均 方 误差 为 02. 
下 一 个 例子 将 比较 样本 均值 和 在 8.2 节 特 定 假 设 下 推导 的 贝 叶 斯 最 大 后 验 概 
率 估 计量 . 
例 9.5 ”假设 观测 Xi …… ,Xn 是 正 态 独立 同 分 布 的 , 具有 共同 的 未 知 均值 9 和 已 
知 方差 v. 在 例 8.3 中 应 用 的 是 由 叶 斯 方法 , 假设 参数 9 服从 正 态 的 先 验 分 布 . 对 
于 9 的 先 验 均值 是 零 的 情况 , 得 到 下 面 的 估计 量 : 
XI 十 … 十 Xn 
nl 


翰 


0， 


O, = 


这 个 估计 量 是 有 俩 的 ， 因为 Eo[6@,] = n9/(n 十 1) 且 bo(e) = -9/( 十 1). 但 是 
limw ,be(en) = 0, 所 以 6, 是 渐 近 无 偏 的 . 它 的 方差 是 


UN 


varg (On,) = EE 


它 比 样本 均值 的 方差 v/n 略 小 一 些 . 注意 这 个 例子 的 特殊 之 处 , varoe(9%) 不 依赖 于 
0. 均 方 误差 等 于 


02 UN 


ti nt) 


Eo[62] = b2(O;,) + vare(O»,) = 


假设 除了 样本 均值 (9 的 估计 量 ) 


六 让 于 
MW 
n 


我 们 还 对 方差 v 的 估计 量 感 兴趣 . 一 个 自然 的 选择 是 


2 
52 = DXi 一 Mn)2， 


i=1 


这 和 基于 正 态 性 假设 的 例 9.4 推导 得 出 的 最 大 似 然 估计 量 一 致 . 
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根据 事实 
vv 
Eg,,) [M,,| = 0, El(g,) [X2] 一 02 在 9， Eg,) [M2] =02 s 
得 到 


二 1 Nn Nn 
Eg,w) Sa] = E00) 中 X? —2M, 》 Xi + nM? 


d= =] 


1 2 2 2 
=E(g,w) 人 >》， Xf —2Mi + Mi 


$= 


因此 , 52 不 是 v 的 无 偏 估 计量 , 尽管 它 是 渐 近 无 偏 的 . 
通过 适当 的 比例 缩放 可 以 得 到 一 个 方差 的 无 偏 估计 量 


之 前 的 计算 说 明 

Elo [52 一 
因而 52 是 v 的 一 个 无 偏 估计 量 (对 于 所 有 n). 但 是 , 当 n 很 大 的 时 候 , 92 和 52 
本 质 上 是 一 样 的 . 


随机 变量 的 均值 和 方差 估计 
观测 值 Xi …… ,Xn 是 独立 同 分 布 的 , 均值 0 和 方差 v 均 未 知 . 
。 样本 均值 


M+ + Xn 
nN 
是 9 的 一 个 无 偏 估计 量 , 它 的 均 方 误差 是 v/n. 
。 方差 的 估计 量 有 两 个 
a2 1 pe 2 6&2_ 1 I 2 
52 = ee M»,)*, $2 = Cs M,)?. 


= 二 =] 


。 当 Xi 服从 正 态 分 布 , 估计 量 52 和 最 大 似 然 估 计量 相等 . 它 有 偏 但 是 渐 近 
无 偏 . 估计 量 62 是 无 偏 的 . 当 n 很 大 的 时 候 , 方差 的 两 个 估计 量 本 质 上 
是 一 致 的 . 
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9.1.4 ”置信 区 间 


考虑 未 知 参数 9 的 一 个 估计 量 6;. 除了 估计 所 得 的 数值 , 我 们 还 想 建立 一 个 
所 请 的 置信 区 间 . 粗糙 的 说 , 这 个 区 间 以 某 个 很 高 的 概率 包含 参数 9 的 真 值 . 
为 准确 定义 , 我 们 首先 固定 一 个 希望 达到 的 置信 水 平 1 一 a, 其 中 a 往往 是 个 
很 小 的 数 . 然后 用 一 个 略 小 的 估计 量 6 和 一 个 略 大 的 估计 量 6+ 代替 点 估计 量 
8, 于 是 67 < 6+, 且 


Po(O7 < 0 < OH)>1-a, 


对 于 9 每 个 可 能 的 取 值 成 立 . 注意 , 与 一 般 估 计量 类 似 , 65 和 8# 也 是 观测 的 函 
数 , 因 分 布依 开 0 的 随机 变量 称 [967%,6| 为 (1 一 a) 置信 区 间 . 

例 9.6 ”假设 观测 X; 是 正 态 独立 同 分 布 的 , 均值 9 未 知 , 方差 v 已 知 . 样本 均值 
估计 量 


De 
是 服从 正 态 分 布 的 ,” 均值 为 0, 方差 为 v/n， 利 用 标准 正 态 分 布 的 概率 分 布 函 数 
B(z)( 可 从 正 态 分 布 表 中 查 得 ), 有 @(1.96) = 0.975 = 1 一 a/2 且 得 到 


Po 上 < 1.96 | = 0.95. 
Vv/n 


ev = 


可 以 整理 为 如 下 形式 


Po (®, L906 ® <0<On,t+ 902) = 0.95, 
nN Nn 
|e， 1.964/ >, On 1 L962 
TN Nn 


是 95% 置信 区 间 , 分 别 定义 65 和 6 为 6 一 1.96VY 和 ,+1.96V. 

在 之 前 的 例子 中 , 我 们 想 用 这 样 的 表述 来 刻画 一 个 95% 置信 区 间 : 真实 的 参 
数落 在 置信 区 间 内 的 概率 是 95%. 但 是 这 样 的 表述 是 模糊 的 . 比如 说 , 假设 得 到 观 
测 值 之 后 得 到 置信 区 间 [2.3,4.1]. 我 们 不 能 说 0 有 95% 的 概率 落 在 [2.3,4.1], 因 
为 这 种 表述 并 不 包含 任何 随机 变量 . 毕竟 , 在 经 典 方法 中 , 9 是 一 个 常数 . 实际 上 ， 
短语 “真实 参数 落 在 置信 区 间 ” 中 的 随机 项 是 置信 区 间 , 而 不 是 真实 参数 . 

下 面 是 一 个 具体 的 解释 , 假设 9 是 固定 的 . 我 们 运用 相同 的 统计 过 程 建立 了 很 
多 个 置信 区 间 . 比如 每 次 获得 ”个 独立 的 观测 并 建立 95% 置信 区 间 . 可 以 预期 有 
95% 的 置信 区 间 将 包含 9. 无 论 9 的 值 是 多 少 , 这 总 是 正确 的 . 


@ 这 里 用 的 是 独立 正 态 随机 变量 的 和 还 是 正 态 的 重要 事实 , 参见 第 4 章 


这 说 明 
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置信 区 间 
e。 对 于 一 维 的 未 知 参 数 0, 其 置信 区 间 是 一 个 以 很 高 概率 包括 9 的 区 间 , 端 
点 为 6 和 @+. 
。9-; 和 e+ 是 依赖 于 观测 Xi1,… ,Xn 的 随机 变量 . 
。 (1 一 Qa) 置信 区 间 对 于 0 所 有 可 能 的 取 值 满足 


-<0<Ot)>1-a. 


通常 情况 下 , 置信 区 间 是 包含 估计 量 6,, 的 区 间 . 更 进一步 , 在 许多 符合 要 求 
的 置信 区 间 中 , 我 们 喜欢 长 度 最 短 的 . 但 是 , 这 并 不 容易 找到 , 因为 误差 8, 一 9 的 
分 布 或 者 是 未 知 的 , 或 者 是 依赖 于 9 的 . 所 幸 在 很 多 重要 的 模型 中 , 6, 一 9 的 分 布 
是 渐 近 正 态 无 偏 的 . 这 就 是 说 随机 变量 
©,—0 


varg (Qn) 

的 概率 分 布 函数 在 n 增加 的 时 候 趋 于 标准 正 态 概率 分 布 函数 ( 对 于 0 所 有 可 能 的 
取 值 ). 现在 我 们 可 以 像 例 9.6 一 样 , 导出 近似 的 置信 区 间 . 

9.1.5 ”基于 方差 近似 估计 量 的 置信 区 间 

假设 观测 X; 是 正 态 独立 同 分 布 的 , 均值 9 和 方差 bv 均 未 知 . 用 样本 均值 


二 
加 nN 


08 
来 估计 9, 用 之 前 介绍 的 无 偏 估 计量 


Nn 


a 1 大 
0 
i=1 


来 估计 v. 特别 地 , 用 癌 /m 来 估计 样本 均值 的 方差 wm 给 定 a, 可 以 用 上 述 估计 
和 中 心 极限 定理 构造 一 个 (近似 ) 1 一 a 置信 区 间 , 即 


Bn A bn 
On :+ 和 | 
其 中 > 由 关系 式 
Bd(z) =1— 3 
和 正 态 分 布 表 得 到 , $,, 是 $2 的 正平 方 根 . 例如 , 若 a = 0.05, 利用 事实 更 (1.96) = 


0.975 二 1 一 a/2( 从 正 态 分 布 表 中 可 知 ) 得 到 近似 95% 置信 区 间 的 形式 为 


9 -196 方 ， 6.+106 生 | 
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注意 在 这 种 方法 中 , 两 个 不 同 的 近似 起 了 作 
变量 ; 其 次 , 用 估计 总 /nm 代替 了 6 的 真实 方差 w/m. 

即使 在 X; 是 正 态 随机 变量 的 特殊 情况 下 , 上 面 建立 的 置信 区 间 仍 然 是 近似 的 
这 是 因为 52 只 是 真实 方差 v 的 近似 估计 , 而 随机 变量 


里 


LUL 


让 十- 
7 


E, 将 6 看 成 正 态 的 随机 


ee 


1 _ VilOn -0) 

Sn, 
不 是 正 态 的 . 但 是 , 对 于 正 态 的 X;, 7, 的 概率 密度 函数 不 依赖 于 9 和 w 可 以 显 式 
地 计算 出 来 . 称 五 的 分 布 为 自由 度 为 n 一 1 的 6 分 布 .” 类似 标准 正 态 分 布 的 概率 
密度 函数 , 它 是 对 称 钟 形 的 , 但 是 散布 更 广 , 尾部 更 重 ( 见 图 9.3). 感 兴趣 的 各 种 区 
间 的 概率 可 以 通过 t 分 布 表 查 到 , + 分 布 表 类 似 于 正太 分 布 表 . 因此 , 当 X;( 近 似 ) 正 


态 并 且 n 相对 较 小 的 时 候 , 下 面 给 出 的 是 更 加 精确 的 置信 区 间 : 


其 中 > 由 关系 式 


CQ 
Yn_1(%2) 二 1 一 了 


得 到 , 亚 。i(z) 是 自由 度 为 n 一 1 的 t 分 布 的 概率 分 布 函 数 , z 的 值 可 以 通过 查 表 得 
到 . 这 些 表 可 以 在 很 多 地 方 找到 , 下 面 给 出 了 一 个 简略 的 版 本 
Dd 0 
图 9.3 自由 / 


度 为 n 一 1 的 t+ 分布 的 概率 密度 函数 与 标准 正 态 概率 密度 函数 的 比较 


@ t 分 布 具有 很 有 意思 的 性 质 并 且 有 闭合 式 的 表达 式 
有 时 候 它 又 被 称 作 “ 学 生 分 布 ”. 这 是 1908 年 由 受 


, 但 是 精确 的 公式 对 达到 我 们 的 目的 并 不 重要 . 


:于 都 柏林 酿酒 广 的 威廉 ” 戈 塞 特 发 表 的 . 1 
假冒 学 生 的 名 义 写 了 这 篇 文 草 , 因为 以 他 本 人 的 名 字 发 表 文 草 在 当时 是 被 禁止 的 . 戈 塞 特 致 力 卫 
挑选 产量 最 好 的 大 麦 , 但 只 有 较 小 的 样本 数量 . 


|E= 


tl 
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另 一 方面, 当 m 上 


可 以 直接 用 正 态 分 布 表 ( 表 3.1). 


表 9.1 tt 分布 表 : 给 定 自由 度 为 n 一 1 时 t 分 布 的 概率 分 布 


) 的 时 候 , t 


t 分 布 和 正 态 分 布 非常 接近 , 因此 


函数 亚 一 1(z)， 


0.100 0.050 0.025 0.010 0.005 0.001 

二 3.078 6.314 12.71 31.82 63.66 318.3 
2 .886 2.920 4.303 6.965 9.925 22.33 
3 1.638 2.353 3.182 4.541 5.841 10.21 
4 1.533 2.132 2.776 3.747 4.604 7.173 
5 1.476 2.015 2.571 3.365 4.032 5.893 
6 1.440 1.943 2.447 3.143 3.707 5.208 
7 1.415 1.895 2.365 2.998 3.499 4.785 
8 1.397 1.860 2.306 2.896 3.355 4.501 
9 .383 1.833 2.262 2.821 3.250 4.297 
10 1.372 1.812 2.228 2.764 3.169 4.144 
11 .363 1.796 2.201 2.718 3.106 4.025 
12 1.356 1.782 2.179 2.681 3.055 3.930 
13 1.350 1.771 2.160 2.650 3.012 3.852 
14 1.345 1.761 2.145 2.624 2.977 3.787 
15 1.341 1.753 2.131 2.602 2.947 3.733 
20 .325 1.725 2.086 2.528 2.845 3.552 
30 .310 1.697 2.042 2.457 2.750 3.385 
60 1.296 1.671 2.000 2.390 2.660 3.232 
120 1.289 1.658 1.980 2.358 2.617 3.160 
oo 1.282 1.645 1.960 2.326 2.576 3.090 


表 中 左 列 是 自由 度 mm 一 二 顶 行 是 


例 9.7 ”利用 电子 天 平 得 到 一 个 物体 习 


服从 正 态 分 布 均值 为 零 方 差 未 知 的 随机 误差 . 


立 的 . 得 到 结果 如 下 : 


忆 部 概率 B, 顶 行 以 下 的 每 行 是 更 m _ 1(z) 二 1 一 B 中 z 的 值 


假设 每 次 观测 直 


E 量 的 八 次 测量 值 . 测量 值 是 真实 的 重量 加 上 


接 的 误差 是 相互 独 


0.554 7, 0.540 4, 0.636 4, 0.643 8, 0.491 7, 0.567 4, 0.556 4, 0.606 6. 
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用 t+ 分布 来 计算 95% 管 信 区 间 . 样本 均值 6, 是 0.574 7, 9w 方差 的 估计 是 


Nn 


不 


es 


62 1 
T=》 (Xi— On) = 3.2952.10-4, 
n n(n—1) 2 ) 


因而 5 /Vn = 0.018 2. 根据 + 分 布 表 , 1 一 更 7(2.365) = 0.025 = ay/2, 所 以 


2 
by( 04 05) =005. 
Sn/ Vn 


9 的 95% 置信 区 间 为 


On — 2.365—=, On 2.365—= | = |0.531, 0.618]. 
Va 办 | 


与 由 正 态 分 布 表 得 到 的 置信 区 间 


> 9 
Qn, 一 1.96 On + 1 加 | 
相 比 , 后 者 更 罕 , 也 即 对 于 点 估计 6 = 0.574 7 的 精度 更 持 乐 观 的 态度 . 
目前 为 止 建立 的 近似 置信 区 间 依 赖 于 未 知 方差 v 的 特殊 估计 量 52. 然而 , 方差 

能 有 不 同 的 估计 量 或 近似 . 比如 , 假设 观测 庆 ,… , XY, 是 独立 同 分 布 的 伯 努 利 随 
人 未 知 均值 9 和 方差 v= 0(1 -0 外 . 除了 52， 方差 的 另 一 个 近似 是 QO,(1— 0,). 
事实 上 , 当 n 增加 @， 依 概 率 收 和 敛 到 0, 因此 96;(1 一 ;) 也 收敛 到 方差 v= 90(1 一 9). 
还 有 一 种 可 能 是 观测 到 9(1 一 9) < 1/4 对 于 0 & [0,1] 总 成 立 , 用 1/4 作为 方差 的 保 
守 估 计 . 下 面 的 例子 就 说 明了 这 些 选择 . 
例 9.8 (选举 问题 ) ”考虑 5.4 节 例 5.11 的 选举 问题 , 我 们 想 估计 的 是 选民 中 支持 
某 位 候选 人 的 比例 0. 收集 了 nn 个 独立 选民 的 回应 Xi,… ,X%, 其 中 将 X 看 作 伯 
努 利 随机 变量 , 若 第 i 位 选民 文 持 则 Xi = 1, 否则 为 0. 用 样本 均值 @， 来 估计 b， 
并 用 正 态 和 逼近 方法 来 建立 置信 区 间 . 但 Re X 的 方差 进行 估计 ， 
而 对 于 方差 的 估计 , 有 不 同 的 方法 . 为 具体 化 , 假设 样本 数 为 n = 1 200 的 选民 中 
有 684 位 支持 候选 人 , 6,, = 684/1 200 = 0.57. 

(a) 如 果 用 方差 的 估计 


= [0.539, 0.610] 


684 684 
-(12 4 2 
1 有 ( 5 ) ] 
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并 将 6， 看 作 均 值 9 方差 0.245 的 正 态 随机 变量 , 则 得 到 95% 管 信 区 间 


2 9 9 1.96. V0.24 196.VD25 
Ge O, + 1.962% 一 |0.57 96. v0 0.57 J 96 . V0.245 
Vn Vn V1 200 V1 200 
=[0.542, 0.598]. 


(b) 方差 估计 


On(l 一 On) 
1 200 1 200 
其 结果 和 (a) 是 一 样 的 (精确 到 三 位 小 数 ), 所 以 95% 置信 区 间 为 


©, US a Sy | 
Vn Vn 


还 是 [0.542, 0.598]. 
(c) 利用 方差 的 上 界 1/4 作为 方差 的 估计 , 得 到 的 置信 区 间 是 


x 1.96 . (1/2) 1.96 . (1/2) 
©;, — 1.9612, 0, + 1.9612| = [os7 - ta Ang Nt A ei he) 
| Vn Vn V1 200 V1 200 


= [0.542, 0.599], 


和 和 684 ( 5 ) 一 0.245 


比 起 (a) 和 (b) 的 结果 , 仅仅 宽 了 一 点 , 实际 上 和 前 面 的 几乎 一 样 . 

图 9.4 比较 了 利用 方法 (b) 和 (ce) 得 到 的 置信 区 间 , 其 中 国定 6,。 = 0.57, 样本 
数量 在 n = 10 到 n = 10 000 之 间 变 化 . 可 以 看 见 , 当 在 几 百 的 时 候 (这 也 是 典 
型 的 调查 样本 量 ), 区 别 很 小 . 但 是 需要 注意 , 若 n 的 取 值 很 小 的 时 候 , 两 者 的 差异 
是 十 分 明显 的 . 因此 , 在 ”比较 小 的 时 候 , 需要 特别 小 心 . 


， 利用 方差 的 上 界 得 到 的 置信 区 问 
+ 利用 方差 的 千 计 得 到 的 要 信 区 问 


_0.4 - 
10! 102 10% 10" 
多 


图 9.4 例 9.8 中 方法 (b) 和 (c) 中 的 近似 方法 构造 的 置信 区 间 , 其 中 9@。= 0.57 是 固定 的 ， 
样本 数量 在 n = 10 到 n= 10 000 之 间 变 化 
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9.2 线性 回归 


本 节 讨论 的 问题 是 用 线性 回归 的 方法 对 感 兴趣 的 两 个 或 更 多 个 变量 之 间 的 关 
系 建立 模型 . 这 种 方法 的 一 个 特征 是 : 它 可 以 由 最 小 二 乘法 完成 操作 , 而 不 需要 任 
何 概率 上 的 解释 . 当然 , 线性 回归 也 可 以 在 各 种 概率 框架 之 下 进行 解释 . 

首先 考虑 两 个 变量 的 情况 , 然后 推广 到 多 个 变量 之 间 关 系 的 讨论 . 现在 想 要 对 
感 兴趣 的 两 个 变量 x 和 yy 的 关系 建 模 (例如 受 教育 的 年 数 和 收入 ), 为 此 收集 了 一 
些 数 据 (zi,9),i = 1,… 例如 zi 是 第 i 个 个 体 受 教育 的 年 数 , y; 是 相应 的 年 收 
入 . 通常 一 个 关于 样本 的 二 维 散 点 图 会 显示 zi 和 yi 之 间 有 规律 的 、 近 似 线性 的 关 
系 . 于 是 自然 想 建立 如 下 形式 的 线性 模型 


V 饼 00 + O17%, 


其 中 00 和 0 是 未 知 的 待 估 参 数 . 
特别 地 , 给 定 参 数 的 估计 6 和 仙 , 模型 对 x; 相应 的 vy 的 预测 是 


i = 加 十 O17i. 


一 般 地 , 和 已 知 的 y; 的 值 会 有 差异 
Yi = Yi — hi, 


称 为 第 i 个 残 差 . 残 差 小 的 估计 被 认为 是 很 好 地 拟 合 了 数据 . 为 此 , 线性 回归 在 所 
有 % 和 b 中 选择 使 得 残 差 平方 和 


Nn Nn 


D-H) = > — 0 — Hrs)? 


$=1 t= 


最 小 的 6 和 名 作为 未 知 参数 90。 和 91 的 估计 . 图 9.5 作 了 说 明 . 


残 差 y a 6 5 Oi 


(%, 9) 
y= + Oy 


~ 


图 9.5 数据 集 { (zi, yi),i = 1,… ,mn} 出 发 , 选择 go 和 凡 , 使 之 成 为 残 差 yi; 一 00 一 917; 
的 平方 和 最 小 的 估计 , 得 到 模型 y = bo 十 bz 
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注意 , 在 实际 问题 中 , 关于 线性 模型 的 假定 未 必 是 正确 的 , 比如 可 能 实际 上 两 
个 变量 之 间 的 关系 是 非 线 性 关系 . 因此 在 实际 工作 中 , 我 们 往往 首先 需要 进行 模型 
的 鉴定 工作 , 就 是 检查 数据 是 否 文 持 线性 模型 的 假设 . 只 有 经 过 鉴定 , 并 确认 我 们 
所 处 理 的 模型 是 一 个 线性 模型 的 情况 下 , 我 们 才 应 用 最 小 二 乘法 去 找 出 这 个 线性 模 
型 . 

为 推导 线性 回归 估计 6 和 1 的 公式 , 我 们 发 现 一 旦 给 定数 据 , 残 差 平 方 和 是 
关于 go 和 91 的 二 次 函数 . 为 求 最 小 值 , 分 别 对 0 和 b 求 导 , 再 令 导 数 为 零 . 经 过 
计算 , 得 到 解 的 简单 显 式 表达 式 , 总 结 如 下 . 


线性 回归 
给 定 n 个 数据 对 (zi, yi), 使 得 残 差 平方 和 最 小 的 估计 是 


六 二 > 1(2 一 二 (0 一 信 
D1 (2 — 3)? 


) Oo = 5— O17, 


| 
/| 


例 9.9 ”比萨 斜 塔 随 着 时 间 的 推移 倾斜 得 越 来 越 历 害 ， 下 表 记 录 了 从 1975~1987 
年 间 塔 上 一 固定 点 的 位 移 (此 点 的 实际 位 置 和 塔 垂直 的 时 候 该 点 的 位 置 的 距离 ( 米 
数 )) 的 测量 值 . 


年 份 1975 1976 1977 1978 1979 1980 1981 


倾斜 2.964 2 2.964 4 2.965 6 2.966 7 2.967 3 2.968 8 2.969 6 


年 份 1982 1983 1984 1985 986 1987 


倾斜 2.969 8 2.971 3 2.971 7 2.972 5 2.974 2 2.975 7 


现在 用 线性 回归 来 估计 模型 y = 00 + 01z 中 的 参数 9。 和 91, 其 中 x 是 年 份 , Y 
是 倾斜 值 . 根据 回归 公式 得 到 
6 二 Di iri — £)(Yi — 9) 
DD — £2)? 


=0.0009,，00 = -075=1.1233, 


其 中 

i 和 

z= > = 1981, y= > = 2.969 4. 
估计 的 线性 模型 为 


y = 0.000 9z + 1.123 3， 
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* 数据 点 
一 一 估计 的 线性 模型 


2.962 
1974 1976 1978 1980 1982 1984 1986 1988 


年 
图 9.6 例 9.9 中 比萨 斜 塔 的 倾斜 数据 和 倾斜 度 的 估计 模型 


9.2.1 最 小 二 乘 公 式 的 合理 性 ? 

基于 概率 论 的 考虑 , 可 从 不 同 角 度 来 说 明 最 小 二 乘 方法 的 合理 性 . 

(a) 最 大 似 然 (线性 模型 , 正 态 噪声 ). 假设 x; 是 给 定 的 数 (不 是 随机 变量 ), y; 
是 随机 变量 歼 的 实现 , 到 的 模型 为 


Yi = 00++ Oxi tt Wi, i= 1,.… ) 7 


其 中 Wi; 是 均值 为 零 ,方差 为 o? 的 正 态 独立 同 分 布 随机 变量 . 因而 浆 也 是 独立 的 
正 态 随机 变量 , 均值 90 + bzi 方差 o2. 似 然 函 数 的 形式 为 
Pe 1 ep{ (yi — 00 — 017i)? } | 

5 oO 


202 


似 然 函数 达到 最 大 等 价 于 表达 式 中 的 指数 部 分 达到 最 大 , 即 残 差 平方 和 最 小 . 因而 ， 
基于 最 小 二 乘法 的 参数 g 和 0 的 线性 回归 估计 可 以 看 作 是 Y 的 期 望 具有 线性 结 
构 的 正 态 模型 中 参数 9 和 91 的 最 大 似 然 估计 . 事实 上 , 当 7 与 x; 有 这 种 关系 时 ， 
bg 和 91 的 基于 最 小 二 乘法 的 估计 是 无 偏 估 计 . 更 进一步 , 估计 的 方差 可 以 用 简便 
的 公式 算得 (参见 本 章 末 习题 ), 然后 用 9.1 节 中 的 方法 建立 g 和 91 的 置信 区 间 . 

(b) 近似 贝 叶 斯 线性 最 小 均 方 估计 (在 可 能 的 非 线 性 模型 中 ). 假设 z; 和 y; 
分 别 是 X; 和 去 的 实现 . 不 同 数 对 (Xi, 六) 之 间 是 独立 同 分 布 的 , 但 是 X; 和 六 的 
二 维 联合 分 布 未 知 ， 考虑 服从 同一 分 布 的 另 一 独立 数 对 (Xo, Yo). 假设 观测 到 Xo 


@ 跳 过 这 一 小 节 不 会 影响 课程 的 连续 性 . 


ml 
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并 希望 用 线性 估计 量 思 = 00 十 01Xo 来 估计 巧 . 从 8.4 节 得 知 给 定 Xo, 则 5 的 线 
性 最 小 均 方 估计 量 的 形式 为 


cov(Xo, Yo) 


ElYo] | var(X0) (Xo E[Xo]), 
也 即 
cov(Xo, 0) 
= a 00 = EIYo] ~ OBlXol. 


由 于 不 知道 (Xo, ” ) 的 分 布 , 用 z 作为 E[Xo] 的 估计 ,5 为 EI7o] 的 估计 , ?1 (zi 一 
元 )( 太 一 凡 /m 为 cov(X0,w) 的 估计 , DD? (zi 一 2)2/n 为 var(Xo) 的 估计 . 将 这 些 佑 
计 代 入 60 和 入 的 公式 中 , 发 现 此 处 得 到 的 线性 回归 参数 估计 表达 式 就 是 之 前 给 出 
的 最 小 二 乘法 公式 . 值得 注意 的 是 这 里 的 论断 不 需要 线性 模型 正确 性 的 假设 . 

(c) 近似 贝 叶 斯 最 小 均 方 估计 (线性 模型 )， 假 设 数据 对 (Xi, 天) 独立 同 分 布 ， 
和 (b) 中 一 样 . 还 有 附加 的 假设 : 数据 对 满足 模型 
Yi = 00+ 0 Xi +t Wi, 
其 中 Wi; 是 独立 同 分 布 的 零 均值 噪声 项 , 与 X; 独立 . 根据 条 件 期 望 的 最 小 均 方 性 
质 , 可 知 E[Yo|Xo] 在 所 有 函数 9 中 使 得 估计 误差 平方 的 期 望 E[(Yh - 9(CXo))?] 最 
小 . 根据 假设 , E[ 呈 |Xo] = 00 十 01Xo. 因而 真实 的 参数 9 和 01 使 得 

El(Yo ~ 0% — O01 Xo0)"] 

达到 最 小 . 由 弱 大 数 定律 , 这 个 表达 式 是 当 n 一 co 时 


ye 
i=1 
的 极限 . 这 说 明 通 过 使 上 述 表 达 式 (用 x; 和 y; 分 别 代替 X; 和 疙 ) 达到 最 小 是 使 
BE[(n 一 的 一 OX0)?]( 真 实 参数 ) 达到 最 小 的 较 好 的 近似 . 而 使 这 个 表达 式 达到 最 小 
和 使 残 差 平方 和 达到 最 小 是 一 样 的 . 
9.2.2 ” 贝 叶 斯 线性 回归 ? 
线性 模型 和 回归 并 不 仅仅 与 经 典 推断 方法 相关 . 下 面 在 贝 叶 斯 框架 中 来 学 习 它 
们 . 特别 地 , 将 z1,… ,zj, 当 作 给 定 的 数 , (yi,… ,yn) 是 向 量 Y = (六 ,… , 刀 ,) 的 
观测 值 , 随机 向 量 六 满足 线性 关系 
Y= Oo0+ Oi7i; + Wi. 
这 里 , 9 = (680, 981) 是 待 佑 参数， Wi,… , Wi, 是 独立 同 分 布 的 随机 变量 , 均值 为 
零 , 方差 已 知 为 o>2. 与 贝 叶 折 否 学 思想 一 至 将 8。 和 91 建 模 为 随机 变量 . 假设 
Bo, 91, Wi,… ,Wi, 相互 独立 , Go。 和 91 均值 为 零 , 方差 分 别 是 cg 和 oz. 
@ 跳 过 这 一 小 节 不 会 影响 课程 的 连续 性 . 
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基于 6o, 91, Wi,… ,Wi 都 是 正 态 随机 变量 的 假设 , 现在 可 以 利用 最 大 后 验 
概率 方法 来 推导 贝 叶 斯 估计 量 . 在 所 有 % 和 91 中 让 后 验 概率 密度 函数 fejy (9o， 


01|y1,… ,yn) 最 大 . 根据 贝 叶 斯 准则 , 后 验 概率 密度 函数 是 ” 
fe(to,01)fyle(yi,:.: ,yn|0o, 01) 


除 以 一 个 和 (60,91) 无 关 的 归 一 化 常数 . 根据 正 态 性 假设 , 表达 式 写 成 


0 02 此 ; — 00 — xi01)? 
Te 
其 中 c 是 和 (0,91) 无 关 的 归 一 化 常数 . 等 价 地 , 在 所 有 9 和 4 中 使 表达 式 


02 02 六 00— TiO 3 
0 (yi — Oo 1) 
200 201 20 


最 小 . 注意 , 这 和 前 面 经 典 推断 中 期 望 达到 最 小 的 表达 式 殉 _,(y; -96 一 zib0)2 是 


类 似 的 ( 当 oo 和 ci 足够 大 , 可 以 忽略 外 /2cg 和 好 /2c?, 则 这 两 个 最 小 化 是 一 样 
的 ). 为 求 最 小 值 , 分 别 对 6 和 91 求 导 , 再 令 导 数 为 零 . 经 过 计算 , 得 到 如 下 解 . 


贝 叶 斯 线性 回归 
。 模型: 
(a) 假设 有 线性 关系 Y= Bo0 十 Bizi 十 Wi. 
(b) 认为 zi 是 已 知 常数 . 
(c) 随机 变量 80, 9B1, Wi,… ,Wi 服从 正 态 分 布 且 独 立 . 
(qd) 随机 变量 Bo。 和 @1 均值 为 堆 , 方差 分 别 是 cg 和 oa. 
(e) 随机 变量 Wi 均值 为 零 , 方差 为 o2. 
给 定数 据 对 (zi,yi), Bo 和 61 的 最 大 后 验 概率 估计 是 


@ 注意 这 一 段 用 到 条 件 概率 的 概念 , 因为 是 在 贝 叶 斯 框架 中 . 
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这 里 有 一 些 注释 . 


(a) 如 果 与 cg 和 cz 相 


大 , 观测 基本 被 忽略 , 因而 估计 和 


(b) 如 果 让 先 验 方差 ol 
的 有 用 的 先 验 
前 推导 的 经 典 的 线性 下 


一 


的 值 


知 


《PN 


各 . 


(d) 估计 和 1 是 y; 的 线 怕 


非 随机 的 数 , 而 y; 是 随机 变量 
后 验 概率 估计 量 Qo 和 6 


歼 的 观测 值 . 


时 , 观测 冯 的 取 值 w 的 权重 和 其 


是 贝 叶 斯 线性 最 小 均 方 估 
9.2.3 ”多 元 线性 回归 


到 目 
一 元 回归 . 肿 


教育 年 数 的 函数 ). 这 
举例 来 说 , 现在 的 数据 | 


前 为 止 , 我 们 关于 线性 


计量 


回 


二 


目标 是 建立 一 个 月 
下 有 很 多 潜在 的 解释 变量 (比如 我 
类 的 模型 称 


门 考 虑 解释 


型 如 下 


比方 说 , 对 于 随机 相 


的 讨论 只 包含 了 一 个 解释 
x 的 值 来 解释 % 的 观测 值 的 模型 . 但 
年 收入 的 模型 , 它 是 关于 年 龄 和 受 
为 多 元 回归 模型. 
三 元 组 的 形式 (zw 加) 组 成 , 我们 想 估计 参数 0, 模 


比 o? 很 大 , 则 得 到 6 = 0, bi 3 0. 这 种 情况 是 噪声 很 
E 验 均值 (假设 为 零 ) 是 一 样 的 . 

和 o2 增加 到 无 穷 大 , 那么 不 存在 外 
言 息 . 在 这 种 情况 下 , 极 大 后 验 概率 估计 和 o? 不 相 
归公 式 一 样 . 

(c) 为 简单 起 见 假设 元 = 0. 估计 9 
是 成 比例 的 . 这 可 以 从 直观 上 来 解释 : 当 x; 很 大 , Y 中 61z; 的 贡献 就 相对 大 ， 
从 而 去 含有 关于 B81 有 用 的 信息 . 反之 , zi 为 0, 观测 页 和 691 独立 , 进而 可 


E 何 关于 8 和 ei 


相关 zi 


以 被 


FE 函数 , 而 不 是 x; 的 . 然而 要 记得 , z; 是 外 生 的 、 
因而 从 8.4 
是 线性 的 . 再 看 我 们 的 正 态 性 
计量 和 最 小 均 方 估 


节 定 义 的 意义 上 来 说 , 最 大 
FE 假设 , 这 些 估 计量 同时 又 
(参考 8.4 节 末 尾 的 讨论 ). 


变量 , 记 作 z, 也 即 
是 很 多 情况 


V 包 00 十 07 十 02z. 


EFE 本 中 的 第 i 个 人 , y; 可 以 是 收入 , z; 是 年 龄 , zz 


在 所 有 的 bo,0 和 0 中 寻找 使 得 残 差 平方 和 


Nn 


是 受 教育 年 数 . 


Dy 一 00 一 和; 一 022)” 


sl 


最 小 的 解 . 在 理论 上 , 多 个 解释 


变量 的 情况 与 两 个 解释 


变量 的 情况 是 没有 本 质 差别 


的 . 回归 估计 9; 的 计算 在 概念 上 和 单个 解释 变量 情形 一 样 , 但 显然 公式 要 复杂 得 


多 . 


一 个 特例 , 假设 z= z2?, 处 理 的 模型 变 为 


如 采 能 够 找到 y; 关于 zi 是 
高 阶 多 项 式 模型 也 是 可 能 的 ). 


YO 00 十 O17 十 0277. 


是 二 次 函数 关系 的 解释 , 那么 这 个 模型 
虽然 二 次 函数 关系 是 非 线 怕 


是 合适 的 (当然 更 
FE 的 , 但 这 个 模型 仍 被 称 
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作 线 性 的 , 因为 未 知 参数 9; 和 观测 的 随机 变量 六 是 线性 关系 . 推广 之 , 可 以 考虑 
这 种 一 般 形式 的 模型 


j=1 
通过 取 遍 00,01,.… ,0m 使 得 表达 式 
Dw 00— Dohj(z)) 
i=1 j=1 


取 值 最 小 即 得 到 参数 的 估计 所, 仙 ，,… ,9%,， 这 样 的 最 小 化 问题 的 解 已 经 有 现存 的 
公式 . 它们 都 属于 多 元 线性 回归 的 范畴 


9.2.4” 非 线性 回归 


如 果 假设 的 关于 未 知 参数 的 模型 结构 是 非 线性 的 , 可 将 线性 回归 方法 将 推广 到 
非 线 性 的 情况 . 特别 地 , 假设 变量 zx 和 y 关系 如 下 


y S h(z;0), 


其 中 h 是 给 定 的 函数 ,9 是 待 佑 参数 . 对 于 已 知 的 数据 对 (zi,yi),i = 1,… ,n, 欲 寻 
找 0 使 得 残 差 平方 和 


2% — h(xi;0))? 

ll 
达到 最 小 . 
与 线性 回归 不 同 , 这 类 最 小 化 问题 通常 并 没有 闭合 式 的 解 . 但 是 解决 实际 问题 
时 有 一 些 相当 有 效 的 计算 方法 . 和 线性 回归 类 似 , 非 线性 最 小 二 乘 估计 源 自 参数 0 
的 最 大 似 然 估计 . 假定 数据 y; 来 自 下 列 的 模型 ， 


Y=h(ri;0) + Wi i=1,...,n, 


其 中 9 为 未 知 的 回归 模型 的 参数 , W; 是 独立 同 分 布 的 零 均值 正 态 随机 变量 . 这 个 
模型 的 似 然 函数 的 形式 为 


冯 | 


nN 1 机 
fy(y; 0) 一 Voto ep{ 902 


EH 中 go? 为 Wi 的 方差 . 似 然 函 数 最 大 等 价 于 上 式 中 指数 部 分 最 大 , 也 就 是 使 得 残 
差 平 方 和 最 小 . 这 说 明 在 为 正 态 的 情况 下 , 非 线 性 回归 模型 中 参数 9 的 最 小 二 
乘 估计 就 是 参数 9 的 最 大 似 然 估计 
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9.2.5 ”实际 中 的 考虑 


回归 方法 的 应 用 领域 非常 广泛 , 从 工程 到 社会 科学 领域 , 无 不 涉及 . 但 是 应 用 


时 需要 小 心 . 这 里 我 们 讨论 一 些 很 重要 的 需要 牢记 的 问题 , 忽略 了 这 些 事项 , 将 无 
法 通过 回归 分 析 得 到 可 靠 的 结论 . 
(a) 异 方 差 性 . 在 涉及 正 态 误差 的 线性 回归 模型 中 , 最 小 二 乘 估计 要 求 模 型 中 


误差 项 , 也 即 噪声 项 Wi(i = 1,… ,n) 的 方差 相同 . 但 是 , 在 现实 中 , 不 同 数据 对 的 
Wi 的 方差 可 能 有 很 大 差别 . 比如 , Wi 的 方差 可 能 受到 zx; 的 严重 影响 (更 具体 一 些 ， 


假设 zi 是 年 收入 且 y; 是 年 消费 . 很 自然 能 够 预期 富 人 消费 的 方差 远大 于 穷人 消 宽 


的 方差 ). 在 这 种 情况 下 , 一 些 方差 较 大 的 噪声 项 将 对 参数 估计 造成 不 恰当 的 影响 . 


一 种 合适 的 补救 办 法 是 使 用 加 权 最 小 二 乘 准则 ?1 ai(yi 一 00 一 91zi)2 其 中 对 于 


就 小 一 些 . 


Wi 的 方差 较 大 的 i, 权重 am 


(b) 非 线性 . 很 多 时 候 , 变量 x 的 取 值 可 以 影响 变量 y 的 取 值 , 但 是 这 种 影响 


本 马 
| 


(c) 多 重 共 线 性 . 假设 现 


J 能 是 非 线 性 的 . 之 前 也 讨论 过 , 选择 合适 的 h, 基于 数据 对 (h(xi), yi) 的 回归 模型 


在 用 两 个 解释 变量 x 和 > 来 建 模 预测 男 一 个 变量 y. 


如 果 z 和 z 之 间 本 身 就 有 很 强 的 关系 , 那么 估计 的 过 程 可 能 无 法 可 靠 的 区 分 两 个 


解释 变量 各 自 对 模型 的 影响 . 


一 个 极端 的 例子 是 , 假设 y = 2z + 1 是 真实 的 关系 ， 


而 z=2z 总 是 成 立 的 . 那么 模型 y = z 十 1 也 是 正确 的 , 但 是 并 不 存在 一 种 计算 方 
法 分 摊 两 个 解释 变量 > 和 z 在 建立 模型 时 对 y 的 贡献 . 


(d) 过 度 拟 合 . 用 大 量 的 解释 变量 和 相应 的 参数 来 建立 多 元 回归 , 其 拟 合 效果 
是 良好 的 , 但 这 种 建立 模型 的 方法 并 非 有 利 , 也 有 可 能 是 没有 用 的 . 举例 来 说 , 假设 


一 个 线性 模型 是 正确 的 , 但 是 我 们 却 用 9 次 多 项 式 来 拟 合 10 个 数据 . 模型 的 数据 
拟 合 效果 肯定 非常 好 , 但 却 是 不 对 的 . 一 个 重要 的 原则 是 , 数据 点 的 数量 应 该 是 待 
佑 参数 个 数 的 5 倍 , 最 好 是 10 倍 . 


(e) 因果 关系 . 不 要 把 两 个 变量 x 和 y 之 间 的 线性 关系 错误 理解 成 因果 关系 . 


一 个 非常 好 的 拟 合 可 能 是 因为 变量 x 是 导致 y 的 原因 , 也 有 可 能 y 是 导致 x 的 原 


因 . 或 者 , 有 一 些 外 在 的 因素 ， 
具体 的 例子 是 x; 是 第 一 个 出 


有 变量 z 来 刻画 , 以 相同 的 方式 影响 着 > 和 y. 一 个 
生 的 孩子 的 财富 , y; 是 同一 个 家 庭 中 第 二 个 出 生 的 孩 


子 的 财富 . 粗略 地 预计 会 随 着 zi 的 增加 而 线性 增长 , 但 是 这 应 该 归功 于 共同 家 


庭 和 背景 的 影响 , 而 不 是 两 个 孩子 之 间 的 因果 关系 . 


9.3 ”简单 假设 检验 


本 节 将 再 次 讨论 如 何 从 7 


两 个 假设 中 进行 选择 . 与 8.2 节 贝 叶 斯 公式 表达 不 同 ， 


这 里 没有 先 验 概率 的 假设 . 可 以 将 此 看 作 9 只 有 两 个 可 能 取 值 的 推断 问题 , 但 为 保 
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UD 


持 一 致 , 需要 抛弃 9 的 记号 , 而 用 Ho 和 到 代表 两 个 假设 . 在 传统 的 统计 语言 中 ， 
Ho 被 称 作 原 假设 , Hi 被 称 作 备 择 假设 . 这 个 假设 检验 问题 称 为 简单 假设 检验 问题 . 
这 说 明 到 的 角色 是 默认 的 模型 , 根据 得 到 的 数据 来 决定 是 支持 还 拒绝 Hi. 

观测 随机 变量 X = (Xi1,… , X%) 的 分 布依 赖 于 假设 . 记号 P(X € 4; Hj) 表示 
当 假设 万 成 立时 X 属于 4 的 概率 . 注意 与 经 典 推断 内 容 一 致 , 不 存在 条 件 概率 ， 
因为 真实 的 假设 并 没有 被 当 作 随 机 变量 对 待 . 类 似 地 , 用 px (x; Hj) 或 fx(zx; Hj) 分 
别 表示 向 量 X 在 假设 五 ; 下 的 分 布 列 或 概率 密度 函数 . 我 们 希望 找到 一 个 决策 准 
则 将 观测 值 z 映射 到 其 中 一 个 假设 上 去 ( 见 图 9.7). 


图 9.7 简单 假设 检验 的 经 典 推断 框架 


三 


任何 一 个 决策 准则 都 可 以 用 样本 空间 的 一 个 分 划 来 表达 . 将 观测 向 量 X = 
(X1,… ,Xn) 所 有 可 能 取 值 的 集合 划分 为 两 个 部 分 : 集合 RE, 称 为 拒绝 域 ; 以 及 
它 的 补 集 Re, 称 为 接受 域 . 当 观 测 数据 X = (Xi1,… ,Xn) 落 在 拒绝 域 R 中 , 假设 
Ho 被 拒绝 (声称 Ho 是 错误 的 ), 否则 就 被 接受 , 见 图 9.8. 因此 , 决策 准则 的 选择 等 
价 于 拒绝 域 的 选择 . 


山 | 


一 、 


观察 值 x 的 空间 


接受 域 RC, 接受 所 


拒绝 域 R, 拒绝 厂 ， 


图 9.8 ”简单 假设 检验 决策 准则 的 结构 ， 它 将 所 有 可 能 的 观测 划分 为 集合 (拒绝 域 ) 和 它 的 
补 集 Re( 接 受 域 ). 如 果 观 测 的 实际 值 落 在 拒绝 域 中 , 原 假设 被 拒绝 


对 于 一 个 选 定 的 拒绝 域 尺 有 两 种 可 能 的 错误 
(a) 拒绝 Ho 而 实际 上 Ho 是 正确 的 . 这 是 第 一 类 错误 , 所 谓 的 错 拒 , 发 生 的 概 


a(R) = P(X € R; Ho). 


(b) 接受 Ho 而 事实 上 Ho 是 错误 的 . 这 是 第 二 类 错误 , 所 谓 的 受 假 , 发 生 的 概 
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BR) =P(X ¢ BiH). 
为 构造 拒绝 域 的 形式 , 将 其 和 贝 叶 斯 假设 检验 做 类 比 ， 在 贝 叶 斯 假设 检验 中 ， 


两 个 假设 为 6= 0 和 6 = 0, 先 验 概率 分 别 是 pe(bgo) 和 pe(01). 于 是 , 对 于 固定 
的 观测 值 z, 利用 最 大 后 验 概率 准则 让 犯错 的 总 概率 达到 最 小 . 按 这 个 规则 , 如 果 


pelto)pxle(zx|00) < pe(01)pxle(7x|01), 


则 称 @ = 01 是 真 的 (假设 X 是 离散 的 ).” 这 条 准则 也 可 以 这 样 改写 : 定义 似 然 比 


pxle(z|01) 
pxle(z|00) 


并 称 9 = b 是 真 的 , 如 果 观 测 向 量 X 的 实现 值 x 满足 


L(x 


L(x) >&, 
其 中 临界 值 < 为 
£ = De(0o) 
pe(01) 
如 果 X 是 连续 的 , 其 分 析 方 法 是 一 样 的 , 只 是 似 然 比 定义 为 概率 密度 函数 的 比值 : 
fxle(zx|01) 
a) 


根据 之 前 最 大 后 验 概率 准则 的 形式 , 考虑 如 下 形式 的 拒绝 域 


R= {zx|L(z) > €}, 


其 中 似 然 比 L(z) 的 定义 和 贝 叶 斯 情形 类 似 :” 


_ px(z; Hi) 志 加 

人 0 

现在 的 情况 下 ,Fo 和 Hi 不 再 具有 先 验 概率 , 拒绝 域 中 的 常数 可 以 自由 地 根据 
各 种 考虑 确定 . 特殊 情况 《= 1 正好 对 应 了 最 大 似 然 准 则 . 


@ 在 这 一 段 我 们 用 到 条 件 概率 的 概念 因为 要 处 理 贝 叶 斯 问题 . 
@ 注意 , 我 们 用 L(z) 表示 基于 随机 观测 X 的 观测 值 z 的 似 然 比 的 值 . 另 一 方面 , 最 好 在 做 实验 之 前 
将 似 然 比 看 作 随 机 变量 , 观测 X 的 函数 , 记 为 L(X). L(X) 的 概率 分 布依 赖 于 哪个 假设 是 真 的 . 
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例 9.10 ”现在 想 检 验 一 个 六 面 的 愉 子 是 否 均 匀 , 构造 了 关于 六 个 面 出 现 的 概率 的 


两 个 假设 : 


两 (的 匀 的 般 子 ) :px(e Ho) = 3， z=1,…,6 
二， 车 > 一 12， 
本 (不 均匀 的 艇 子 ): px(z; 可) = 41 
-=， 若 z = 3,4,5,6 
8 
这 个 仍 子 一 次 投掷 x 的 似 然 比 是 
1/4 3 
1/6 一 2， 若 二 1,2, 
和 0 若 3,4,5,6 
1/6 4， 二 2, 和 4, 9,， 
由 于 似 然 比 只 有 两 个 单独 的 取 值 , 临界 值 上 所 对 应 的 拒绝 域 有 三 种 不 同 的 情况 : 
£ < 3 :对 所 有 的 拒绝 到 ; 
， EE : : 若 ze {3,4,5,6}, 接受 包 ; 车 ze {1,2}, 拒绝 本 
3 


De 对 所 有 的 xz 接受 Ho. 


直观 上 看 , 若 投掷 结果 是 1 或 2 则 倾向 于 接受 如 而 拒绝 Ho. 另 一 方面 , 如 果 将 临 
界 值 选 得 太 高 (5 > 3/2) 就 永远 不 会 拒绝 Ho. 事实 上 对 于 骨 子 的 一 次 投掷 , 检验 只 
有 当 3/4 < € < 3/2 时 才 有 意义 , 因为 上 取 其 他 值 的 时 候 , 决策 本 身 并 不 依赖 于 观 
测 . 


不 同 的 临界 值 犯错 的 概率 可 以 根据 数据 算出 . 特别 地 ， 错 误 拒 绝 的 概率 P 
(拒绝 万 0; Ho) 为 


1， ER 
1 3 3 
a(é) = P(X € {1,2}; Ho) = 3, 车 1 
0， 若 3 < 6 
错误 接受 的 概率 P( 接 受 媚 ; 可) 为 
0 若 2 
》 右 这 xs 4， 
p9=1PCEeta456HB)= 二 车 1<6<7， 
1， 车 3 < 
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注意 , 在 前 面 的 例子 中 & 的 选择 使 得 两 种 错误 的 概率 之 间 有 此 消 彼 长 的 关系 . 
事实 上 , 当 & 增 大 , 拒绝 域 变 小 . 因此 , 错误 拒绝 的 概率 a(R) 减 小 而 错误 接受 的 概 
率 8(R) 增加 ( 见 图 9.9). 由 于 这 种 平衡 的 存在 , 没有 一 种 简单 最 优 的 方法 来 选择 临 
界 值 . 下 面 介 绍 一 种 最 受 欢 迎 的 方法 . 


临界 值 


HF-s 人 二 天 的 太 间 


1 错误 拒绝 概率 1 错误 拒绝 概率 


图 9.9 ” 似 然 比 检 验 中 的 犯错 概率 . 当 临 界 值 € 增加 , 拒绝 域 变 小 . 因此 , 错误 拒绝 的 概率 a 


减 小 而 错误 接受 的 概率 6 增加 . 当 a 对 于 的 依赖 连续 严格 单调 下 降 , 对 于 给 定 的 
a, 只 有 了 唯一 的 & 与 之 对 应 ( 见 左 图 ). 但 是 a 对 于 € 的 依赖 也 可 能 是 不 连续 的 , 比如 
似 然 比 L(z) 只 有 有 限 个 不 同 的 取 值 ( 见 右 图 ) 


似 然 比 检验 
。 首先 确定 错误 拒绝 的 概率 a 的 目标 值 . 
。 选 择 & 的 值 使 得 错误 拒绝 的 概率 为 a 


P(L(X) > &; Ho)= a. 


。 观 测 X 的 取 值 x, 若 L(x) >& 则 拒绝 Ho. 


根据 错误 拒绝 的 不 愉快 程度 , a 的 典型 选择 是 a = 0.1,a = 0.05 或 a = 0.01. 
注意 在 应 用 似 然 比 检验 时 需要 下 面 的 条 件 . 

(a) 对 于 给 定 的 观测 值 x, 我 们 必须 能 够 计算 L(xz), 这 样 才能 与 临界 值 < 作 比 
较 . 所 笠 在 给 定 分 布 列 或 概率 密度 函数 的 大 部 分 情况 下 都 可 以 做 到 ， 

(b) 必须 有 L(X)( 或 相关 随机 变量 如 ln Z(X)) 分 布 的 表达 式 或 者 可 以 通过 近 
似 分 析 计 算 和 模拟 得 到 . 因为 给 定 错误 拒绝 概率 a, 需要 通过 它 来 确定 相应 的 临界 
值 4. 
例 9.11 一 台 监 视 器 周期 性 地 检查 某 个 特定 区 域 , 并 记录 下 信号, X = W 为 没有 
入 侵 者 (假设 到 ), X=1+W 为 存在 入 侵 者 (假设 厂 ). 假设 W 是 零 均 值 、 已 知 
方差 为 v 的 正 态 随机 变量 . 由 于 


1 2Z2 .1 1 (z— 1)? 
A -7 人 


fx(7x; Ho) = 
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似 然 比 为 


a 


给 定 临界 值 &, 如 果 Z(z) > &, 似 然 比 检验 拒绝 Ho. 或 者 等 价 地 , 经 过 直接 计算 , 若 


1 
7>v ln é+3,; 


则 拒绝 Ho. 因此 , 拒绝 域 的 形式 为 


R= {zx|zx > 7}, 


其 中 7 为 某 个 常数 , 称 为 临界 值 . 7 与 的 关系 为 


1 
pe 
Yn 


见 图 9.10. 当 确 定 错误 拒绝 的 概率 a 的 目标 值 以 后 , 可 通过 关系 


=P(X>”;Ho)=P(W >7) 


和 正 态 分 布 表 来 找 y， 比如, 若 a = 0.025, 则 >y = 1.96Vv. 同样 地 , 还 可 以 用 正 态 
分 布 表 计 算 错误 接受 的 概率 


B=P(X<YjyH)=PI+W<y)=PW<Yy-1). 


错误 接受 概率 。 ”错误 拒绝 概率 


接受 域 接受 域 
图 9.10 例 9.11 中 的 拒绝 域 和 接受 域 , 以 及 相应 错误 拒绝 和 错误 接受 的 概率 


当 L(X) 是 连续 随机 变量 , 就 像 之 前 的 例子 , 概率 P(L(X) > &; Ho) 随 着 6 的 
增长 从 1 到 0 连续 移动 . 因而 可 以 找到 的 一 个 取 值 满足 P(L(X) > &; 0) = a 
但 若 L(X) 是 离散 的 随机 变量 , 则 未 必 能 找到 恰好 满足 P(L(X) > 6 Ho)=a 的 & 
的 取 值 ( 见 例 9.10). 在 这 种 情况 下 一 般 有 几 种 选择 . 

(a) 寻找 使 等 式 近似 成 立 的 取 值 . 
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(b) 选择 满足 P(L(X) > &; Ho) < a 的 & 的 最 小 取 值 . 

(c) 利用 外 来 的 随机 性 在 两 个 候选 临界 值 中 作 选择 . 这 种 检验 方法 称 为 “随机 
化 似 然 比 检验 ”. 这 种 方法 在 理论 研究 上 有 影响 . 但 是 由 于 它 在 实际 中 并 不 十 分 重 
要 , 本 书 对 此 不 作 深入 讨论 . 
通过 与 贝 叶 斯 推断 的 类 比 , 我 们 推动 了 似 然 比 检验 的 应 用 . 但 现在 要 提出 一 个 
更 强 的 结论 : 在 给 定 的 错误 拒绝 概率 之 下 , 似 然 比 检验 使 得 错误 接受 的 概率 达到 最 


内 曼 - 皮尔 逊 引 理 
考虑 在 似 然 比 检验 中 一 个 确定 的 &, 从 而 有 犯错 概率 


P(L(X) > é€; Ho0)= a, P(L(X) & €;H1)= 7. 


假设 还 有 其 他 检验 , 拒绝 域 为 R, 使 得 错误 拒绝 的 概率 一 样 或 更 小 : 


P(X € R; Ho) <a. 
则 有 
当 P(X ER;Ho) <a 成 立时 , 严格 不 等 式 P(X 4 R; 厨 ) > 6 成 立 . 


为 证 明 内 曼 - 皮 尔 逊 引 理 , 考虑 一 个 关于 假设 的 贝 叶 斯 决策 问题 , 其 中 Ho 和 
了 Hi 的 先 验 概率 满足 


即 


pe(bo) = pe(01) = ri 


如 本 节 开 始 所 讨论 , 利用 最 大 后 验 概 率 准则 得 到 的 门限 值 为 &, 这 与 利用 似 然 比 检 
验 准 则 得 到 的 绪论 是 一 样 的 . 由 最 大 后 验 概率 准则 知 , 犯错 的 概率 为 


EMAP = Te 十 Tf 


由 8.2 节 知 它 小 于 或 等 于 任何 其 他 贝 叶 斯 决策 准则 的 犯错 概率 . 这 说 明 任 选 拒绝 域 
R 都 有 


1 
EMAP < Ter(X E R; Ho)+ Te ¢ R; Hi1). 


比较 前 面 两 个 关系 式 得 , 若 P(X e R; Ho) < a, 则 必须 有 P(X 4 RR; 本 ) > 6; 若 
P(X eR;Ho) < a, 则 必须 有 P(X 4 RR;H) > 8. 这 正 是 内 曼 - 皮尔 逊 引 理 的 结论 . 
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内 时 -皮尔 还 引 理 可 以 用 画图 的 方式 来 解释 , 见 图 9.11. 下 面 将 用 几 个 例子 来 


日 


说 明 这 一 引 理 . 


1 


图 9.11 内 曼 - 皮 尔 撑 引 理 的 解释 . 考虑 所 有 错误 概率 数 对 (a(R), 5(R)) 的 集合 2, 当 BR 取 遍 


所 有 可 能 的 拒绝 域 (样本 空间 的 子 集 ). £ 的 有 效 边界 是 这 样 的 向 量 (a(R), 5(R)) 的 


从 全 


不 口 : 


内 曼 - 皮尔 逊 引 理 说 的 是 似 然 比 检验 中 所 有 的 (a(R), 8(R)) 都 在 有 效 边界 上 


例 9.12 接着 考虑 例 9.10, 投 搓 
数 对 (a(R), 8(R)) 的 集合 2, 其 
的 所 有 子 集 )， 图 9.12 中 画 出 了 集合 £， 可 以 看 
(1,0), (1/3,1/2) 和 (0,1) 具有 内 曼 - 皮尔 逊 引 到 


不 存在 (ov B) e 6 使 得 


见 图 9.11 中 的 术语 ). 


UD 


图 9.12 ”图 


显 


Qa < a(R) 且 8B<B(R), 或 者 a<a(R) HB< Bb(R). 


般 子 一 次 来 检验 它 是 否 均匀 . 考虑 所 有 错误 概率 
PR 取 遍 所 有 可 能 的 拒绝 域 (样本 空间 {1…… ,6} 


上 似 然 比 检验 中 的 犯错 概率 数 对 


给 出 的 性 质 (比如 落 在 有 效 边界 上 ， 


0 02 04 0.6 


示 了 例 9.10 和 例 9.12 中 所 有 错误 概率 数 对 (a(R), 8(R)) 的 集合 2, 其 中 RE 


取 遍 观测 空间 {1,… ,6} 的 所 有 子 集 ，(1,0), (1/3,1/2) 和 (0,1) 是 似 然 比 检验 中 的 
犯错 概率 数 对 


例 9.13 (不 同 拒绝 域 的 比较 ) 


正 态 随机 变 


[三 


3 


同 均 值 是 2. 设 错误 拒绝 的 概率 为 a = 0.05. 


设 观 测 为 Xi 和 Xs, 它们 是 独立 同 分 布 的 单位 方差 
在 Ho 的 假设 下 它们 的 共同 均值 是 0, 而 在 厂 的 假设 下 它们 的 共 
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首先 根据 似 然 比 检验 推导 公式 , 然后 计算 6 的 值 . 似 然 比 的 形式 为 


exp{—((z1 — 2)? + (x2 — 2)°)/2} 
7 二 

下 喜人 厅 

比较 Z(z) 和 临界 值 < 等 价 于 比较 zi + za 和 = (4+lnae)/2. 因而 根据 似 然 比 检 

验 , 如 果 zi + za > y 则 倾向 于 承认 瑟 . 这 确定 了 拒绝 域 的 形状 . 

为 确定 拒绝 域 的 具体 形式 , 我 们 要 找到 7 使 得 错误 拒绝 的 概率 P(X1 二 X2 > 

7; Ho) 为 0.05. 注意 ,在 Ho 的 假设 下 , 2 = (Xi 十 X2)/V3 是 标准 正 态 随机 变量 , 则 
有 


= exp{2(z1 十 Z2) — 4}. 


X1 十 X2 了 ) ( 往 ) 
0.05 = PLX1 十 X， > 7 五 0) = 了 | 一 一 一 > 一 ; 51=PIZ> 一 | . 
( 1 pl 0) ( V3 V3 0 


根据 正 态 分 布 表 , 得 到 P(2Z > 1.645) = 0.05, 因而 选择 


7 = 1.645. V2 = 2.33, 


得 到 拒绝 域 为 
R= {(z1,72)|7z1 十 Za > 2.33}. 
为 评价 这 个 检验 的 表现 , 我 们 计算 错误 接受 的 概率 . 在 本 的 假设 下 ,Xi + X2 
服从 均值 为 4 方差 为 2 的 正 态 分 布 , 因而 Z = (Xi 十 Xz 一 4/V2 是 标准 正 态 随机 
变量 . 根据 正 态 分 布 表 , 错误 接受 的 概率 是 


B(R) =P(X1 + X2 < 2.33; Hi1) 


X Xo。—4 2.33 一 4 
| es < i ) 
V2 


=P(Z < —1.18) 


=P(2 > 1.18) 
=1— P(Z < 1.18) 
=1— 0.88 


二 0.12. 


现在 来 比较 似 然 比 检验 在 不 同 的 拒绝 域 RR 下 的 表现 . 比如 考虑 一 个 形式 为 


R’ = {(z1,72)| max{z1, zr2} > C} 
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的 拒绝 域 , 其 中 ¢ 的 选择 使 得 错误 拒绝 的 概率 仍然 为 0.05. 为 确定 ¢ 的 值 , 有 


0.05 =P(max{ Xi1, Xo} > C; Ho) 
一 


=1— (P(2Z < ¢; Ho))’, 


其 中 2 是 标准 正 态 的 . 推出 P(Z < 6; Bo) = VI 一 0.05 3 0.975. 由 正 态 分 布 表 得 到 
C = 1.96. 
现在 来 计算 相应 错误 接受 的 概率 . 记 2 是 标准 正 态 的 随机 变量 , 于 是 


B(R') =P(max{X1, X2} < 1.96; Fi) 
=(P(X1 < 1.96; Fi)) 
=(P(X1—2 < —0.04; FH1))? 
=(P(Z < 一 0.04))? 
= (0.49)? 


一 0.24. 


可 以 看 见 似 然 比 检验 的 错误 接受 的 概率 8(R) = 0.12, 比 男 一 种 检验 错误 接受 的 概 
率 6(R') = 0.24 要 好 很 多 . 
例 9.14 (一 个 离散 的 例子 ) “将 一 枚 硬币 独立 地 投掷 25 次 . 名: 一 次 投掷 正面 向 
上 的 概率 为 bo = 1/2; 柬 : 一 次 投掷 正面 癌 上 的 概率 为 91 = 2/3. 令 X 是 观测 到 
正面 向 上 的 次 数 . 固定 错误 拒绝 的 概率 为 0.1, 似 然 比 检验 的 拒绝 域 是 什么 呢 ? 

当 针 =%, 似 然 比 的 形式 为 


= (计生 ) =- 二 (人 
注意 L(k) 是 关于 大 的 单调 增 函数 . 因此 , 拒绝 条 件 L(k) > & 等 价 于 > ,其 中 
是 依赖 于 & 的 一 个 合适 的 常数 . 所 以 似 然 比 检验 为 
若 久 > 7, 则 拒绝 Ho. 
为 保证 满足 错误 拒绝 概率 , 需要 找到 使 得 P(X > 7 Ho) < 0.1 成 立 的 最 小 7 值 , 即 


25 


>》， 的 2-25 < 0.1. 
2 


i=”Y 十 1 


4 
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断 


通过 计算 不 同 y 对 应 取 值 找到 符合 要 
另 一 种 选择 7 的 方法 用 到 中 心 极限 定型 


求 的 7 = 16. 


由 了 


法 便 不 


在 实际 情况 


部 分 . 


了 适用 . 本 节 的 目 
的 是 , 我 们 提供 的 方法 既 不 是 


可 以 考虑 


(i) 习 


刀 以 下 问题 来 开启 思维 . 
复 独 立 投掷 一 枚 硬币. 


X_ng XX-12.5 
noo(1—00) V25/4 
是 近似 标准 正 态 随机 变量 . 因而 有 
一 12.5 、2 一 12.5， 
0.1= P(X > 7; Ho) = ? (2 py i ] 
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介 系 类 


-=r( 


FP, 假设 检验 问题 并 不 总 是 包含 两 个 特定 的 选择 ， 


的 是 般 上 


大 小 和 


唯一 


的 也 不 是 


这 枚 人 硬币 是 均匀 的 


的 问题 


吗 ? 


(i 重复 独立 投 皂 一 个 从 子 . 这 颗 骨 子 是 均匀 的 吗 ? 


(十 ) 观测 到 一 列 独立 同 分 布 的 正 态 随机 变量 


吗 ? 


二 利 


(iv) 将 得 了 同一 种 病 的 病人 分 成 四 


,更 有 效 
(v) 基于 万 


吗 ? 


吗 ? 


象 . 在 
测 和 = 


历史 数据 (比如 去 
(vi) 基于 两 个 随机 变量 X 
否 独立 


在 上 述 所 有 外 


上 述 问题 
(CC 天 


涡 中 ， 
h ,我 们 
n) 来 决定 是 拒绝 还 是 ] 


ER 


组 , 用 两 和 


年 


X 不 


;党 


FE 的 ), 道 
IyY 的 


玩 斯 


RT 


一 些 样本 (zxi,yi), 能 够 判 于 


,并 提供 解决 办 法 需 
普 适 的 , 判断 力 和 技巧 是 很 重要 的 组 成 


不 同 的 药 治疗 , 第 


我 们 都 在 处 理 具有 不 丰 
是 出 一 个 默认 的 假设 , 称 


定 


为 避免 主要 思想 上 的 含糊 , 要 将 我 们 的 讨论 范 


中 . 


(a) 参数 模型 ; 


定 的 联合 分 布 列 ( 离 


口 


P 取 值 . 


假设 观测 X1,… 


情 


4 形 ) 或 联合 概率 密度 函数 ( 


性 并 


目 


一 


二 


限 


制 | 用 


站 


,Xn 服从 完全 由 未 入 


连 


续 性 


青 形 )， 0 在 


2 
Fs 


有 某 利 
为 原 假设 , 记 作 Ho0， 我 人 
接受 原 假设 . 
E 具 有 下 列 特 


参数 0( 标 量 或 


的 近似 . 在 o 的 假设 下 ， 


. 


5 


E 态 分 布 表 , $B(1.28) = 0.9, 选择 7 满足 (27/5) -5 = 1.28, 即 Y = 15.7. 由 于 X 
是 整数 , 似 然 比 检验 在 X > 15 的 时 候 应 当 拒 绝 Ho. 


因而 9.3 节 的 方 
要 提醒 


女 


Xn, 它们 是 标准 正 态 的 


一 种 治疗 比 第 


外 数 每 日 的 变化 服从 正 态 分 布 吗 ? 
新 两 个 随机 变量 是 


.统计 规 和 


LE 的 现 
] 根 据 观 


征 的 情况 


向 量 ) 决 


FE 给 定 定 的 集合 M 
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(b) 简单 原 假设 : 原 假设 断言 9 的 真 值 等 于 M 中 一 个 给 定 的 元 素 b0. 
(c) 备 择 假设 : 备 择 假设 ( 记 作 到) 是 说 Do 不 正确 , 即 9 96. 


前 面 的 引 例 中 , (i) ~ 的 满足 (a)~(c). 而 例 (iv) ~ (vi 的 原 假设 并 不 简单 , 违 


背 了 条 件 (p). 


9.4.1 一 般 方法 


我 们 首先 通过 一 个 具体 的 例子 来 介绍 一 般 的 方法 .然后 对 不 同 的 步 又 进行 总 


例 9.15 (我 的 硬币 均匀 吗 ? ) “投掷 一 枚 硬币 


结 和 评论 . 最 后 , 再 来 看 一 些 用 一 般 方法 能 够 解决 的 例子 . 


币 是 均匀 的 ) 是 9 = 1/2. 备 择 假 设 是 0 冯 1/2. 


n 二 1 000 次 , 每 次 投掷 之 间 独 立 . 0 


是 未 知 的 每 次 投掷 正面 朝 上 的 概率 . 参数 可 能 取 值 的 集合 是 M = [0,1]. 原 假设 ( 硬 


观测 数据 是 序列 Xi ,Xi 代表 对 次 投掷 硬币 的 结果 , 第 ;次 投掷 的 结果 为 
正面 朝 上 则 X; 取 值 为 1, 否则 X; 取 值 为 0. 我 们 选择 5 = Xi 十 … 十 XX 的 值 , 即 


观测 到 正面 朝 上 的 次 数 , 并 用 这 样 的 决策 准则 : 


若 |3- 了 | > s 则 拒绝 机， 


其 中 上 是 待定 的 合适 的 临界 值 . 目前 为 止 我 们 已 经 确定 了 拒绝 域 R( 拒 绝 原 假设 的 


数据 集合 ) 的 形状 . 最 后 要 做 的 是 选择 临界 值 € 使 得 错误 拒绝 的 概率 等 于 给 定 的 值 


OQ: 


P( 拒 绝 Ho; Ho) 


一 Q. 


典型 的 a 是 一 个 很 小 的 数 , 称 为 显著 水 平 , 这 个 例子 中 取 a = 0.05. 


到 目前 为 止 , 我 们 只 是 提供 了 一 系列 直观 的 操作 法 . 确定 临界 值 ¢ 需要 一 些 概 
率 计算 . 在 原 假设 下 , 随机 变量 5 服从 参数 为 n= 1 000 和 p= 1/2 的 二 项 4 


分 布 a 


于 样本 量 很 大 的 时 候 , 可 利用 正 态 分 布 到 近 二 项 分 布 , 再 利用 正 态 分 布 表 可 得 到 | 


EY 


界 值 的 近似 选择 5 = 31. 假设 5 的 观测 值 为 s = 472, 则 有 


|s — 500| = |472 — 500| = 28 < 31, 


因而 在 5% 显著 水 平 下 不 拒绝 假设 万 0. 


在 上 例 的 最 后 , 我 们 是 故意 说 “不 拒绝 ”而 非 “ 接 受 ” 的 . 我 们 没有 任何 确凿 的 
证 据说 9 等 于 1/2 而 不 是 0.51. 我 们 只 能 说 5 的 观测 值 没有 提供 有 力 的 证 据 来 反 


对 假设 Ho. 


现在 从 前 面 的 例子 中 总 结 归 纳 得 到 一 种 一 


般 的 方法 . 


424 第 9 章 经 典 统计 推断 


显著 性 检验 的 方法 
基于 观测 入 1， hos ;Xn, 将 对 假设 


(c) 选择 显著 水 平 : 错误 拒绝 

(d) 选择 临界 值 上, 使 得 错误 4 
域 就 完全 决定 了 . 

。 一 旦 得 到 Xi,… ,Xn 的 观测 


(i 若 s 落 在 拒绝 域 中 , 拒绝 


。 以 下 步骤 在 得 到 观测 数据 之 前 完成 . 
(a) 选择 统计 量 5, 一 个 能 够 概括 观测 数据 的 随机 变量 . 从 数学 的 角度 上 
看 , 就 是 选择 函数 hh:R" 一 及 使 得 统计 量 3 = PXT ,Xn). 
(b) 确定 拒绝 域 的 形状 : 拒绝 域 通 常 由 8 的 取 值 组 成 的 一 个 集合 , 当 5S 落 
入 这 个 集合 时 , 就 拒绝 Ho. 在 确定 这 个 集合 的 时 候 , 还 涉及 一 个 未 定 
的 常数 5, 这 个 常数 称 为 临界 值 . 


Gi) 计算 统计 量 S 的 值 s = jz ,zn). 


“Ho : 9 二 ”做 统计 检验 . 


Ho 的 概率 a. 
E 绝 的 概率 等 于 或 近似 等 于 a. 这 时 候 , 拒 


司 


值 zi 


段 设 万 0. 


下 面 对 上 述 方法 中 各 个 部 分 做 一 些 解释 和 评论 


(i) 没有 一 种 万 能 的 方法 来 选择 


“正确 ”的 统计 量 5， 在 一 些 例子 中 , 比如 例 


9.15, 这 种 选择 是 自然 的 并 且 能 从 数学 的 角度 证 明 其 优良 性 能 . 另外 , 我 们 还 可 以 将 


似 然 比 的 概念 进行 推广 , 得 到 有 使 用 价值 的 8, 这 将 在 本 节 后 一 部 分 讨论 . 最 后 


考虑 5 的 选择 的 时 候 , 一 个 重要 的 原 
行 上 面 方法 中 步骤 (d) 的 计算 . 


在 
则 是 : 5 的 简洁 性 , 是 否 足 够 简单 从 而 能 够 进 


(区 不 拒绝 Ho 的 5 取 值 的 集合 一 般 是 包含 (在 Uo 的 假定 下 )5 的 分 布 密度 


峰值 的 一 个 区 间 ( 见 图 9.13). 当 样 
态 分 布 密度 有 对 称 点 , 可 取 关于 8 的 


量 很 大 的 时 候 , 可 利用 中 心 极限 定理 . 由 于 正 
均值 对 称 的 一 个 区 间作 为 接受 域 . 类 似 地 , 例 


9.15 中 对 称 的 拒绝 域 是 根据 事实 在 五, 下 5 的 分 布 (参数 为 1/2 的 二 项 分 布 ) 关于 


其 均值 对 称 而 建立 的 . 其 他 例子 中 , 


E 对 称 的 拒绝 域 可 能 更 加 合适 . 比如 在 例 9.15 


中 , 若 事 先 我 们 能 够 确定 9 > 1/2, 那么 单 边 的 拒绝 域 是 自然 的 : 


若 5S- 7 > 上 则 拒绝 到. 


( 道 ) 一 般 错误 拒绝 的 概率 a 在 a = 0.10 和 a = 0.01 之 间 选 择 . 当然 人 们 都 希 


望 错误 拒绝 的 概率 尽 可 能 地 小 , 但 是 | 


于 两 类 错误 概率 的 互相 消长 关系 , a 取 值 很 


小 会 使 得 拒绝 错误 假设 变 得 困难 , 相应 地 增加 了 错误 接受 的 概率 . 
(iv) 步骤 (d) 是 唯一 需要 概率 计算 的 地 方 . 它 需 要 知道 L(X)( 或 者 相关 随机 变 


量 如 mnZ(X)) 在 假设 名 成 立时 的 分 布 (或 近似 分 布 ). 一 些 特殊 情况 中 , 可 以 是 直 


接 给 出 分 布 或 者 经 过 简单 推导 就 可 以 得 到 分 布 . 然而 除了 相对 简单 的 情形 , 一 般 很 
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难 找 出 5 的 分 布 的 闭合 式 . 着 nn 很 大 , 可 以 利用 中 心 极限 定理 求 出 近似 分 布 . 但 是 ， 
当 不 是 很 大 的 时 候 , 就 很 难得 到 近似 分 布 . 这 种 想 要 得 到 易 处 理 的 表达 式 或 近似 
公式 的 愿望 驱使 我 们 寻找 更 加 实用 的 统计 量 95， 另 一 种 解决 困境 的 途径 是 利用 模 
拟 的 方式 估计 5 的 分 布 , 例如 产生 大 量 独立 的 X 的 模拟 样本 , 根据 L(X) 画 出 直 
方 图 或 估计 的 分 布 . 


(5i AH) 


显著 水 平 


拒绝 域 拒绝 域 
图 9.13 ”显著 性 检验 基于 统计 量 8 在 原 假设 下 的 分 布 的 双边 和 单 边 拒绝 域 . 显著 水 平 是 错误 
拒绝 的 概率 , 也 就 是 在 Ho 成 立时 统计 量 5 落 在 拒绝 域 中 的 概率 


给 定 a 的 值 , 如 果 假 设 Ho 被 拒绝 , 我 们 就 说 Ho 在 显著 水 平 a 之 下 被 拒绝 . 
这 个 说 法 需要 一 个 合理 的 解释 . 它 并 不 是 说 事件 “Ho 真实 ”的 概率 小 于 a. 它 说 的 
是 : 利用 这 种 检验 方法 时 , “错误 拒绝 ”的 百分比 为 a. 在 1% 的 显著 水 平 下 拒绝 
一 个 假设 意味 着 观测 数据 在 Ho 成 立 的 模型 中 显得 很 不 正常 ; 这 种 数据 只 会 以 1% 
的 可 能 性 出 现 , 因而 为 “Ho 不 真 ”提供 了 有 力 的 证 据 . 

很 多 时 候 , 统计 学 家 跳 过 上 述 方法 中 的 步骤 (c) 和 步骤 (d). 取而代之 , 他 们 计 
算 5 的 真实 值 s 并 汇报 相关 的 产值 , 定义 如 下 : 


户 值 = min{al|Ho 在 显著 水 平 a 之 下 被 拒绝 }. 


等 价 地 , p 值 就 是 s 应 当 在 拒绝 与 不 拒绝 分 界 所 处 位 置 的 a 值 . 因此 举例 来 说 , 原 
假设 在 5% 显著 水 平 下 被 拒绝 当 且 仅 当 p 值 小 于 0.05. 

下 面 将 用 一 些 例子 来 解释 主要 思想 . 
例 9.16 ( 正 态 分 布 随机 变量 的 均值 等 于 零 吗 ? ) ”假设 X; 是 独立 正 态 随机 变量 ， 
均值 为 0, 方差 o? 已 知 . 考虑 的 假设 检验 问题 是 : 


Ho: 0=0, Hai: O00. 


一 个 合理 的 统计 量 是 样本 均值 (Xi 十 … 十 X,)/n 或 者 变换 系数 后 的 


议 

ovn 
拒绝 域 形 状 的 自然 选择 是 拒绝 Ho 当 且 仅 当 18| > &. 因为 在 Ho 为 真 的 假定 之 下 ， 
3 服从 标准 正 态 分 布 , 上 相应 于 任意 a 的 取 值 可 以 很 容易 的 从 正 态 分 布 表 中 找到 . 


9 一 
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比如 a= 0.05, 由 P(S < 1.96) = 0.975 可 知 , 检验 可 如 下 执行 


若 15| > 1.96 则 拒绝 可,， 


车 |i 十 … 十 Xn| > 1.96cVn 则 拒绝 可. 


从 单 边 的 角度 来 考虑 , 备 择 假设 变 为 Hi : 9 > 0. 这 时 候 可 以 用 一 样 的 统计 量 
5, 但 是 当 5 > 和 时 拒绝 加, 其 中 根据 P(S > &) = a 来 取 值 . 同样 , 5S 服从 标准 
正 态 分 布 , € 相应 于 任意 a 的 取 值 可 以 很 容易 的 从 正 态 分 布 表 中 找到 . 

最 后 , 若 o? 未 知 , 可 以 用 估计 来 代替 , 如 


1 ee 
2 XX; 1 nN . 
| 


这 时 得 到 的 统计 量 服 从 t+ 分 布 (而 不 是 正 态 分 布 ). 若 n 相对 较 小 , 此 时 应 该 使 用 
t 分 布 表 而 不 是 正 态 分 布 表 (参见 9.1 节 ). 

例 9.17 讨论 复合 型 原 假设 Ho, 这 意味 着 它 不 是 由 单一 分 布 所 确定 的 . 
例 9.17 (两 个 组 的 均值 相等 ? ) ”我 们 现在 想 检验 一 种 药物 在 治疗 两 个 人 数 不 同 的 
0 分 别 从 两 组 中 抽取 样本 Xi1,… , X%， 和 六 ,… ,Ys, 若 药物 
治疗 对 第 一 组 (或 第 二 组 ) 的 第 i 个 人 有 效 则 X; = 1( 或 二 = 1), 否则 X; = 0( 或 
=0). 将 每 个 Xi( 或 疙 ) 看 作 伯 努 利 随机 变量 , 未 知 均值 为 gx( 或 9y), 并 考虑 假 


设 


Ho: Ox = 0y, Hi: Ox A Oy. 


需要 注意 的 是 有 很 多 对 (0x,0y) 都 满足 加, 因而 Ho 是 复合 型 假设 . 
两 组 的 样本 均值 为 


bx 一 90y 的 一 个 合理 的 估计 量 是 6x -Oy. 一 个 可 接受 的 选择 是 拒绝 Fo 当 且 仅 当 


IOx = ery| >4, 


其 中 七 值 由 给 定 错误 拒绝 概率 a 所 确定 . 但 是 选择 合适 的 t 很 困难 , 因为 ex -er 
在 Ho ii bx 和 0y 决定 . 这 激发 了 为 一 种 统计 量 的 发 展 , 我 
们 接 下 来 将 要 讨论 这 种 方法 . 
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对 于 很 大 的 ni 和 n2, @x 和 Qy 近似 正 态 且 相互 独立 , 因而 6x - 9y 也 是 近 
似 正 态 , 均值 为 0x 一 90y, 方差 是 


交 和 0x(1—0 Or(1l 一 
var(Ox — Oy) = var(Ox) + var(Oy) = a x) | a 2 
1 吕 


在 Ho 的 假设 下 , ex - By 的 均值 已 知 为 零 , 但 方差 未 知 , 因为 不 知道 9x 和 9y 的 
共同 取 值 . 另 一 方面 , 在 Ho 的 假设 下 , gx 和 9y 的 共同 取 值 可 以 用 样本 均值 


© 三 各 | Xi 十 i Yi 
Ni 十 ns 


来 估计 , 方差 var(6x 一 By) = var(Qx) 十 var(By) 可 以 近似 为 


62 = (去 + 二) 06(1 -©), 


Nl Ni2 


且 (ex -6ey)/6 近似 为 标准 正 态 随 机 变量 . 因而 考虑 采取 下 列 方式 完成 检验 


右 


lal > 则 拒绝 到,， 


选择 满足 B(£) = 1 一 a/2 的 &, 其 中 @ 是 标准 正 态 分 布 的 概率 分 布 函 数 ， 比 如 
a 二 0.05, 得 到 拒绝 域 形式 为 


| 罕 = Ov) > oo] 


实际 中 , 问题 的 提 法 还 会 有 稍微 的 变化 " 此 时 应 考虑 假设 


Ho: Ox = 0y, Hi: Ox > 0y. 


那么 相应 的 拒绝 域 就 是 单 边 的 , 形式 为 


{3 -| 


其 中 临界 值 是 满足 8(6) = 1 一 a 的 &. 
上 一 个 例子 解释 了 复合 型 原 假设 的 一 类 问题 . 为 确定 合适 的 临界 值 , 我 们 更 希 
望 能 找到 一 个 统计 量 , 使 得 它 的 近似 分 布 相对 于 原 假 设 的 所 有 参数 值 都 一 样 , 就 像 
例 9.17 中 的 统计 量 (6x - ey)/5 那样 . 


@ 例如 第 二 组 病人 的 效果 是 否 不 如 第 一 组 病人 的 效果 . 一 一 译 者 注 
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9.4.2 ”广义 似 然 比 和 拟 合 优 度 检验 


我 们 讨论 的 最 后 一 个 课题 是 : 检验 给 定 的 分 布 列 是 否 和 观测 数据 保持 一 致 . 这 
是 一 个 很 重要 的 问题 , 称 为 拟 合 优 度 检 验 . 这 也 是 一 个 在 复合 备 择 假设 情况 下 显著 
性 检验 的 一 般 方法 . 

考虑 一 个 在 有 限 集合 {1,… ,m} 上 取 值 的 随机 变量 , pk 是 随机 变量 取 值 的 
概率 . 因而 这 个 随机 变量 的 分 布 列 | 可 量 参 数 9 = (01,… ,0m) 刻画 . 考虑 假设 


yi Qn) Hi: 0 # (07,: Sn 0%,), 


= (07 

其 中 {b} 是 一 组 给 定 的 非 负 数 , 且 和 为 1. 现在 抽取 随机 变量 的 一 个 样本 量 为 n 
的 样本 , 令 Ni 是 样本 中 结果 为 的 次 数 . 这 样 实际 观测 得 到 的 随机 变量 是 X = 
(和 i,… ;Nm), 观察 值 为 z= (nn1,… ,nm). 注意 和 Ni 十 … 十 Nm 二 1 十 十 nm 二. 
F 面 这 种 概率 模型 有 很 多 实际 背景 , 我 们 用 撕 骨 子 这 种 易于 理解 的 例子 加 以 
说 明 , 考虑 n 次 独立 地 投掷 一 颗 蜗 子 , 原 假设 Ho 是 : 骨 子 是 均匀 的 . 这 时 包 = 
1/6, 二 1,… ,6, 和 Ns 是 寻 次 投掷 中 结果 为 到 的 次 数 . 注意 备 择 假设 Hi 是 复合 的 ， 
因为 % 有 很 多 选择 . 

下 面 介绍 的 方法 是 广义 似 然 比 检验 , 它 包含 两 个 步骤 . 

(a) 通过 最 大 似 然 来 估计 模型 , 比如 选择 在 所 有 0 中 使 得 似 然 函 数 px (zx;9) 达 
到 最 大 的 参数 向 量 6 = (901,… ,0,,). 

(b) 进行 似 然 比 检验 , 具体 地 说 , 比较 估计 模型 的 似 然 函 数 px(z;0) 和 下 
的 px(zx;0*). 更 具体 地 , 计算 广义 似 然 比 

px (x;0) 
px (zx; 0 ) 

若 它 超过 临界 值 & 则 拒绝 Ho. 和 简单 假设 检验 中 一 样 , 我 们 选择 和 使 得 错误 拒绝 
的 概率 (近似 ) 等 于 给 定 的 显著 水 平 a. 

从 本 质 上 说 , 这 种 方法 提出 了 以 下 问题 : 相对 于 Ho 下 的 模型 , 是 否 存在 和 万 
相符 的 模型 对 观测 数据 有 更 好 的 解释 呢 ? 为 回答 这 个 问题 , 我 们 比较 在 Ho 下 的 可 
能 px(z;0*) 和 相应 于 估计 模型 的 最 大 可 能 px(z; 0). 

现在 按 广义 似 然 比 检验 方法 解决 据 骨 子 中 的 检验 问题 . 第 一 步 , 求 似 然 函数 在 
(1,… ,0m) 的 集合 上 的 最 大 值 点 (最 大 似 然 佑 计 ). 观测 向 量 X 的 分 布 列 是 一 个 多 
项 式 良 见 第 2 章 习 题 27), 似 然 函 数 是 


px(7z;0) = CO .+ 0mm, 


中 c 是 归 一 化 常数 . 在 求 最 大 值 点 时 候 , 求 对 数 似 然 函 数 的 最 大 值 点 会 相对 容易 ， 
其 形式 


Ho: 0 


I 


lInpx(7;0) = lnc+niln0+ .+nm_ imnon +nmnl 一 0 一 一 0 1), 


9.4 显著 性 检验 ”429 


此 处 利用 关系 式 91 十 … 


十 0m 二 1 消除 了 多 余 参 数 0 


的 向 量 9 的 每 一 个 分 量 都 是 


. 假设 使 似 然 函数 达到 最 大 


E 的 , 那么 对 数 似 然 函 数 的 各 个 偏 导数 在 6 处 均 为 0. 


利用 这 个 性 质 , 可 以 得 到 
A ly We 
久 1—0—.…— Om-1 
由 于 右边 的 项 等 于 ny/60%%, 可 知 所 有 比值 nw/ 都 相等 . 根据 ma 十 … 十 nm 二 nn 
得 到 
天 Nk 
记 = 人 下， 大 = 
可 以 看 出 即使 有 mx 为 零 , 仍 能 得 到 正确 的 最 大 似 然 估计 , 相应 的 0 也 为 零 . 
现在 计算 广义 似 然 比 , 得 到 如 下 的 广义 似 然 比 检验 ” 
a 0 下 的 大 全 
pre) Lm > 
其 中 上 是 临界 值 . 在 检验 的 不 等 式 两 边 取 对 数 , 检验 变 为 
车 Dm In( 二 ) > ne 则 拒绝 万 0. 
根据 要 求 的 显著 水 平 来 确定 常数 
P(S > Iné; Ho)= o， 
其 中 


m NT 
$= ln . 
ON (2 
因为 5S 在 Ho 下 的 分 布 很 复杂 , 要 求 出 精确 解 并 非 易 事 , 但 
所 幸 当 很 大 的 时 候 这 可 以 大 大 简化 . 
下 以 很 大 的 概率 与 Ox 接近 . 二 阶 泰勒 


可 以 通过 模拟 解决 . 
这 个 时 候 , 观测 频率 级 = nx/n 在 本 
展 式 显示 统计 量 7/2 是 S 的 很 好 的 近似 , 其 


下 5 是 
(Nx 一 Tt)2 
全 二 
k=1 
@ 这 里 运用 约定 00=1 和 0.In0=0. 
@ 对 任何 y* > 0, 函数 yin (y/w”*) 的 三 阶 泰勒 展 式 为 


y 1 (y— vy)? 
vn (EE ) sy 这 二 
y 2 y 
当 y/y* 守 1 时 成 立 . 因此 ， 
TV 1 Np —n0x)? 了 
学 mn (区 ~ > (Ne 一 nbi) > (Ms pe 总) 
k=1 Mk k=1 k=1 Wa 2 
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进一步 地 , 当 很 大 的 时 候 , 在 Ho 假设 下 , 了 的 分 布 (25 的 分 布 ) 逼近 “自由 度 为 
m 一 1 的 x? 分 布 ”.” 此 分 布 的 分 布 函 数 可 以 在 表 中 查 到 (类 似 正 态 分 布 表 ). 因此 ， 
可 以 在 x? 分 布 表 中 找到 P(T > ?y; Ho) 或 P(25S > 7; Ho) 的 近似 真 值 , 然后 根据 给 
定 的 显著 水 平 a 来 确定 合适 的 临界 值 . 将 所 有 内 容 合 起 来 , 对 于 较 大 的 nn 有 下 面 的 


五 


2 检验 
。 利 用 统计 量 


k= 
(或 者 相关 的 统计 量 站) 以 及 拒绝 域 


进行 检验 (或 相应 的 {T > )). 
。 临 界 值 上 依照 自由 度 为 m 1 的 x? 分 布 的 概率 分 布 函数 表 确 定 , 满足 


P(29 之 了; Ho) 二 Q, 


可 


其 中 a 是 给 定 的 显著 水 平 . 


例 9.18 (我 的 般 子 均匀 吗 ? ) ”独立 地 投掷 一 颗 人 般 子 共 600 次 , 得 到 数字 1, 2, 3, 4， 
5, 6 出 现 的 次 数 分 别 为 


ml = 92, nz = 120, n3 = 88, n4 = 98, ns = 95, ne = 107. 


现在 用 基于 T 统计 量 的 x? 检验 来 检验 原 假设 所 ( 角 子 是 均匀 的 ), 显著 水 平 为 
a = 0.05. 根据 自由 度 为 5 的 x? 分 布 表 得 到 满足 P(T > ”; Ho) = 0.05 的 y=11.1. 


@ ] 度 为 1 的 X2 分 布 定义 为 随机 变量 


的 分 布 , 其 中 F1,.… , 2Z1 是 服从 标准 正 态 分布 (均值 为 零 , 方差 为 1) 的 随机 变量 . 可 以 从 直观 上 
来 解释 为 什么 全 近似 X2 分 布 : 当 n 一 co， Nj/n 不 仅 收敛 到 Gx 同时 也 是 渐 近 正太 的 . 因此 , 了 
等 于 m 个 零 均值 正 态 随机 变量 (Nk - mx)/VnE5X 的 和 .人 的 自由 度 为 m 一 1 而 不 是 m, 这 是 
为 为 Nk = 二 nn, 从 而 m 个 随机 变量 是 相关 的 . 
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| 


由 上 外 =… 王 此 =1/6,=600,nb ==100 以 及 给 定 的 nx, 人 统计 量 的 值 是 
(ng— ng:)? (92 一 100)2 (120—100)? (88 一 100)? 
ni 100 100 | 100 
(98—100)? (95 一 100)2 ，(107 一 100)? 
100 100 100 
一 6.86. 


设 


因为 了 = 6.86 < 11.1 无 法 拒绝 山 子 是 均匀 的 假设 . 如 果 用 的 是 9 统计 量 , 得 到 的 
是 25 = 6.86, 同样 小 于 临界 值 y = 11.1. 如 果 显 著 水 平 a = 0.25, 相应 的 7 值 为 
6.63. 这 时 由 于 人 = 6.86 > 6.63 和 25 = 6.86 > 6.63, 我 们 将 拒绝 人 般 子 是 均匀 的 假 


9.5 “小 结 和 讨论 


经 典 推 断 方法 和 贝 叶 斯 方法 不 同 , 它 将 9 看 作 未 知 的 常数 . 经 典 参数 估计 的 目 
标 是 在 9 所 有 可 能 的 取 值 中 找 出 具有 良好 性 质 (如 对 一 切 9, 偏差 很 小 , 或 具有 满 
意 的 置信 区 间 ) 的 估计 量 . 我 们 首先 关注 与 ( 贝 叶 斯 ) 最 大 后 验 概率 方法 密切 相关 
的 最 大 似 然 估 计 , 它 选择 9 的 估计 使 得 给 定 x 的 似 然 函数 最 大 . 这 种 估计 方法 用 途 
很 广 并 且 有 一 些 很 好 的 性 质 , 特别 是 当 观 测 数目 很 大 的 时 候 . 接着 我 们 讨论 了 特殊 
但 是 在 实际 情况 中 很 重要 的 估计 未 知 均值 并 建立 置信 区 间 . 本 章 中 很 多 方法 都 依 


赖 于 中 心 极限 定理 . 


最 后 讨论 的 是 线性 回归 方法 , 它 主要 是 在 最 小 二 乘 意义 下 找到 


与 观测 相 匹配 的 线性 模型 . 虽然 这 种 方法 的 应 用 不 需要 概率 假设 , 但 是 在 某 些 时 候 
仍 和 最 大 似 然 估计 以 及 贝 叶 斯 最 小 线性 均 方 估计 有 着 密切 的 关系 . 


到 


经 典 假设 检验 方法 的 目标 是 小 的 犯错 概率 以 及 简单 方便 的 计算 . 我 们 首先 研究 
是 当 观 测 落 在 拒绝 域 中 时 拒绝 原 假设 的 检验 方法 . 似 然 比 检验 是 简单 假设 检验 
问题 的 基本 方法 , 内 曼 - 皮 尔 逊 引 理 给 其 很 强 的 理论 支持 . 我 们 还 讨论 了 显著 性 检 
验 , 其 中 一 个 (或 两 个 ) 假设 是 复杂 的 假设 . 主要 方法 包括 适当 选择 提取 观测 信息 


的 统计 量 以 及 拒绝 域 , 使 得 错误 拒绝 的 概率 达到 希望 的 显著 性 水 平 . 


在 对 统计 的 简单 介绍 中 , 我 们 则 在 阐述 核心 概念 和 最 常用 的 方法 , 但 这 还 远 远 


不 够 , 只 是 涉及 这 个 内 容 丰 富 的 学 科 的 一 点 皮毛 而 已 . 很 多 重要 的 话题 我 们 都 没有 
讨论 , 比如 时 间 变 化 的 环境 中 的 估计 (时 间 序 列 分 析 和 过 滤 ), 非 参 数 估 计 (如 基于 


| 


经 验 数 据 来 估计 未 知 的 概率 密度 函数 ), 线性 和 非 线性 回归 的 后 续 发 展 (如 检验 回 


归 模 型 的 假设 是 否 正确 ), 统计 实验 的 设计 方法 , 统计 研究 结论 的 证 实 方法 , 计算 广 
法 , 等 等 . 但 是 , 我 们 希望 能 够 通过 本 章 的 知识 激 起 读者 对 这 门 学 科 的 兴趣 并 对 概 
念 框架 有 一 些 基 本 的 认识 
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习 题 
9.1 节 经典 参数 估计 
1. 爱丽 丝 将 自己 每 周 做 作业 的 时 间 看 作 随 机 变量 , 服从 未 知 参数 为 0 的 指数 分 布 . 不 同 周 
做 作业 的 时 间 是 相互 独立 的 . 本 学 期 的 前 五 周 她 做 作业 的 时 间 分 别 为 10、14、18、8、20 
小 时 , 那么 9 的 最 大 似 然 估计 是 多 少 ? 
2. 考虑 一 列 独立 的 硬币 投掷 试验 , 9 是 每 次 正面 向 上 的 概率 . 
(a) 固定 k, N 是 直到 出 现 第 大 次 正面 向 上 时 投掷 的 总 次 数 . 试 找 出 基于 N 的 0 的 最 
大 似 然 估计 . 
(b) 固定 n, K 是 n 次 投掷 中 正面 向 上 的 次 数 , 试 找 出 基于 K 的 0 的 最 大 似 然 估计 . 
3. 抽样 与 和 的 估计 .一 个 盒子 中 有 K 个 球 :个 白色 和 一 个 红色 的 . 假设 太 和 大 均 已 
知 . 每 个 白 球 上 都 有 一 非 零 数字 , 而 红 球 上 的 数字 都 是 零 . 我 们 想 要 估计 球 上 所 有 数字 的 
和 , 但 是 由 于 大 很 大 , 于 是 用 抽样 的 方法 来 估计 . 此 问题 的 目的 是 量化 从 白 球 ( 非 零 数 字 ) 
中 抽样 以 及 挖掘 对 大 的 认识 的 好 处 . 特别 地 , 将 比较 抽 n 个 球 时 的 误差 方差 和 抽 少 一 些 
的 m 个 白 球 时 的 误差 方差 . 
(a) 假设 独立 地 有 放 回 地 抽 球 , 其 分 布 为 均匀 分 布 . 记 X 为 第 1 个 球 上 的 数字 , Y; 为 第 
i 个 白 球 上 的 数字 . 固定 mn 和 m, 记 
ko ko ko 
各 
其 中 六 是 开始 的 n 个 球 中 白 球 的 (随机 的 ) 个 数 . 说 明 S$、5 和 5 是 所 有 球 上 数 
字 和 的 无 偏 估计 . 
(b) 计算 5 和 5 的 方差 , 并 说 明 为 了 使 它们 近似 相等 , m 必须 满足 
Np 
~ p+r(1-p)’ 
其 中 p= 二/k, 7 = E[YY]/var( 六 ). 指出 当 m=n 时 有 
var(S) p 
var($) p+7r(l1—p) 
(c) 计算 5 的 方差 , 并 说 明 对 于 较 大 的 n 有 
var(S) 1 
var(9) p+7(1—p) 


4. 混合 模型 . 随机 变量 


X 的 概率 密度 函数 由 


= 2 Pp;fy, (7) 


m 个 部 分 组 成 


10. 


其 中 


m 


>》 p;=1, Dj 之 0， j=1,.…,m. 


学 过 


大 


此 X 可 以 看 作 由 两 步 过 程 


体 


tk 


(b) 考虑 


虚 


th 


(c) 考 


其 分 布 密度 为 fy; ) 随机 和 
还 假设 Xi1,…… 
(a) 写 出 似 然 函数 入 
70 一 2 和 
的 最 大 似 然 估计 . 
70 一 2 和 

的 最 大 似 然 估计 . 
(d) 考虑 m > 2 和 nn 的 一 般 情 况 , 假设 所 有 的 参数 都 未 知 . 说 明 让 ma = zi 


,Xn 是 fx (7x) 


n 二 1 的 情 用 


产生 的 : 首 
取 相 应 的 地. 


先 随机 地 以 概率 pj 志 


, 假设 ji、j2、o1 和 os 是 


的 独立 同 分 布 样本 . 
1 对 数 似 然 函数 . 
n 二 1 的 情 首 


取 j, 然后 再 从 第 了 个 总 
段 设 六 是 正 态 的 , 均值 jv, 方差 o7. 此 外 


己 知 的 . 试 找 出 pl 和 ps 


, 假设 pl、p2、o1 和 o2 是 已 知 的 . 试 找 出 pwr 和 jw 


以 及 of 减 


小 到 零 的 时 候 , 似 然 函 数 可 以 任意 大 . 注意 : 这 个 例子 说 明 最 大 似 然 方 法 是 有 问题 


的 . 


(isi 
(a) 试 写 出 


然 函数 关于 9 的 图 . 在 你 的 多 
在 一 项 中 学 生 身高 的 研究 


的 形式 . 


20， 


nN 


6 交 


(b) 假设 已 知 of = 9 和 ji = 164. 给 出 cz 和 
(c) 假设 已 知 of = o2 = 9. 给 出 jw 和 jo 的 最 大 似 然 估计 的 数值 . 
(d) 将 (c) 中 的 估计 作为 ; 和 


则 . 


X1,:…: 


身高 是 均值 jo 和 方差 oz 的 正 态 分 布 . 
现 收集 了 数量 为 n = 10 的 样本 , 记录 值 


PP 假设 女生 的 身 
并 假设 抽出 一 名 男生 和 一 名 女生 
(cm) 如 下 


. 设 不 稳定 的 粒子 从 某 个 源 发 出 , 并 在 服从 参数 9 的 指数 分 布 的 距离 X 源 灭 .| 
殊 的 装置 测 出 最 初 的 n 次 沽 灭 发 生 在 区 间 [mi,m2]. 假设 这 些 事 从 
yn 
以 然 以 及 对 数 似 然 函数 和 


(b) 假设 ma = 1, m2 


一 种 特 


F 记 录 的 距离 为 六 = 


(1.5, 2, 3, 4, 5, 12). 画 出 似 然 函数 以 及 对 数 似 


中 找 出 近似 的 最 大 似 然 估计 . 


高 是 均值 


Ha 和 方差 of 的 正 


下 


164, 167, 163, 158, 170, 183, 176, 159, 170, 167. 


(a) 假设 jw、n2、o1 和 cs 是 未 知 的 . 写 出 似 然 函数 . 


E 确 值 ¥ 


. 泊 松 分 布 随机 变量 的 参数 估计 . 利 
导 参 数 的 最 大 似 然 估计 . 这 个 估计 划 
.均匀 分 布 随 机 变量 的 参数 估计 (IT). 给 定 [0, 9] 上 均匀 分 布 随机 变量 的 独立 同 分 布 观测 值 
` ,Xn. 9 的 最 大 似 然 估 计 是 什么 ? 它 是 相合 的 吗 ? 无 


个 男 一 个 无 人 


测 值 


SC 


的 佑 计量 吗 ? 


上 § 述 利用 


独立 同 


分 布 泊 松 随机 变量 的 观测 值 


户 


是 无 偏 


相合 的 吗 ? 


. 均匀 分 布 随机 变量 的 参数 估计 (IT). 给 定 [09,9 十 1]| 上 均匀 分 布 随 本 
,Xn. 试 找 出 9 的 最 大 似 然 估 计 . 它 是 相合 的 吗 ? 无 偏 还 是 渐 近 无 偏 ? 


兰 生 身高 来 判断 学 生性 别 的 最 大 后 验 概率 准 


态 分 布 , 男生 的 
的 概率 是 相等 的 . 


/Ha 的 最 大 似 然 估 计 的 数值 . 


了 人 
,Xn, 


有 还 是 渐 近 无 人 


前 ? 你 能 构造 一 


触动 某 光 源 , 它 每 次 将 发 射 随机 数量 天 个 光子 . 假设 KK 的 分 布 列 是 


px (k;0) = c(0)e ®%™, k= 0， 1,2, bi: 


变量 的 独立 同 分 布 观 
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11.” 


其 中 9 是 温度 的 倒数 , ce(9) 是 归 一 化 


要 通过 重复 触动 光源 , 记录 发 射 的 光子 数量 来 估计 温度 . 


(a) 确定 规范 化 因子 c(9). 


(b) 找 出 一 次 触动 发 出 光子 数 KK 的 期 望 和 方差 . 


(c) 根据 mn 次 触动 发 出 的 光子 数 K1,…… 
比 最 大 似 然 估计 是 相合 的 . 
充分 统计 量 一 因子 分 解 准则 . 考虑 如 下 观测 模型 .为 简 和 


(d) 证 明 


离散 的 , 初始 观测 工 


估计 9 是 有 
给 定 观测 X = (XI 


如 果 X 在 给 定 随机 变量 T= g 


, 称 (标量 或 向 量 ) 


对 所 有 0 是 一 样 的 . 假设 或 


件 D 和 随机 变量 工 的 可 能 的 取 值 t,， 


是 连续 型 随机 变量 . 


(a) 证 明 : T= gq(X) 是 0 的 充分 统计 量 当 


2Dx(z;0)( 离 散 情 
和 s 是 两 个 函数 . 


Poe(X € DIT=1) 


因子 . 假设 每 次 触动 发 射 的 光子 是 独立 的 . 现在 想 


/9 的 最 大 似 然 估计 . 


起 见 假设 所 有 的 随机 变量 都 是 
由 分 布 列 pr(t;9) 给 出 . 得 到 观测 工 , 另 一 个 观测 
数 9 的 条 件 分 布 列 pyjr(ylt) 得 到 . 直 
的 . 正 是 这 个 问题 


Y 由 不 含 未 知 参 


[ 观 告诉 我 们 在 观测 向 量 X = (T,Y) 中 只 有 工 对 
成 充分 统计 量 的 思想 . 
函数 工 = gq(X) 是 0 的 充分 统计 量 
和) 的 情况 下 的 条 件 分 布 不 依赖 


) 
于 9, 也 就 是 对 于 任何 事 


X 是 离散 的 (在 这 种 情况 下 了 也 离散 ), 或 者 X 和 了 都 


且 仅 当 满足 下 面 的 因子 分 解 准则 : 似 然 函数 
E) 或 fx (zx;9)( 连 续 情形 ) 可 以 写成 r(q(z),0)s(z) 的 形式 , 其 中 


(b) 证 明 : 如 果 gq(X) 是 9 的 充分 统计 量 , 对 9 的 任何 函数 h, 9(X) 都 是 参数 5 = h(9) 


的 充分 统计 量 . 


(c) 证 明 : 如 果 q(X) 是 9 的 充分 统计 量 , 9 的 最 大 似 然 估计 可 以 写成 6。 = $(gq(X))， 


Pe 
心 信息 . 


其 中 $ 是 一 个 函数 . 注意 : 这 说 明 充分 统计 量 抓 住 了 由 X 


提供 的 关于 9 的 所 有 核 


解 (a) 只 考虑 离散 情形 , 连续 情形 的 证 明 类 似 . 
我 们 来 说 明 T= gq(X) 是 充分 统计 量 . 
虑 使 得 Po( 人 = 为 >0 的 0. 对 


本 定 十 考 


的 定义 , 立即 可 得 Pe(X 


rT=t) 


段 设 似 然 函 数 可 以 写作 r(q(x),0)s(x). 


任何 满足 gq(z) 关 t 的 x, 由 条 件 概率 
0 对 所 有 的 9 成 立 . 现在 考虑 使 得 q(x) = 的 


x. 利用 事实 Po(X 


Po(X =z|T=t)= 


rT 


t)= Po(X = 7,g9(X)= q(x)) 


Po(X =Zx,T = i Poe(X = 


DIT 


Po (人 = t) 
r(t,0)s(z) 


Pe (T 三 t) 


Pyt 广 二 这 ;有 


r(t,0)s(z) 


Dg "(9(2), 0)s(2) 


rlt, 
5(7) 


Dla(s)=t 5(2) 


因而 Po(X = zx|T = 如 不 依赖 于 9， 这 说 明 对 于 任意 事 付 


0) Dd 5(Z) 


t) 对 所 有 满足 Pe( 人 = 为 >0 的 0 都 一 样 ,因而 了 


FF 也, 条件 概率 Pe(X < 


是 充分 统计 量 . 


习 题 435 


反之 , 假设 了 = 4(X) 是 充分 统计 量 . 对 以 任意 满足 px(z;0) > 0 的 x, 似 然 函 


px(2;0) = Po(X = zlq(X)= q(x))Po(q(X) = q(7)). 
于 了 是 充分 统计 量 , 右边 第 一 项 不 依赖 于 9, 就 是 s(z) 的 形式 .第 二 项 可 写成 
d(z) 和 6 的 函数 , 即 可 以 写成 r(dq(z),0) 的 形式 . 
(b) 这 是 由 充分 统计 量 的 定义 就 可 以 证 明 的 , 因为 对 C= h(9) 有 


P(X EDIT=t)=Po(X EDIT=0), 


所 以 Pe(X € DIT =t) 对 所 有 的 ¢ 是 一 样 的 . 

(c) 根据 (Qa), 似 然 函数 可 以 分 解 为 r(q(z),0)s(zx)， 因 而 最 大 似 然 估计 在 所 有 9 中 使 
r(d(z),b) 最 大 ( 若 s(z) > 0) 或 者 在 所 有 0 中 使 r(g(z),g) 最 小 ( 若 s(z) < 0), 因 
而 6 只 通过 g(z) 依赖 于 zx. 


12.” 充 4 和 (DD). 在 以 下 情况 中 证 明 9(X) = 学”, X; 是 充分 统计 量 . 
(a) Xi,.… ,X,, 是 参数 为 9 的 独立 同 分 布 的 伯 努 利 随机 变量 . 
(b) XX， 是 参数 为 9 的 独立 同 分 布 的 泊 松 随机 变量 | 


解 (a) 化 然 函 数 为 

px (x;0) = ga(z)(1 一 0 一 (7)， 

因而 可 以 将 它 分 解 为 函数 9% 引 (1 一 09)”-4(*) 和 常 函数 s(z) = 1 的 乘积 , 前 者 只 通 
过 g(x) 依赖 于 zx. 根据 因子 分 解 准 则 得 知 其 为 充分 统计 量 . 

(b) 似 然 函 数 为 


-II (zi) =e i 人 
LA Lp | zil 1 TI al 


因而 可 以 将 它 分 解 为 函数 e-?0%(”) 和 函数 s(x) = 1/T?_1zi! 的 乘积 , 前 者 只 通过 
d(z) 依赖 于 x 而 后 者 只 与 zx 有 关 . 根据 因子 分 解 准 则 得 知 其 为 充分 统计 量 . 
13.” 充分 统计 量 的 例子 (ID. Xi , Xn 是 均值 J 和 方差 o? 的 独立 同 分 布 正 态 随机 变量 . 
证 明 : 
(a) 车 o? 已 知 , 则 q(X) = "| Xi 是 的 充分 统计 量 . 
(b) 若 久 已 知 , 则 gq(X) = 并 7 (Xi 一)? 是 o? 的 充分 统计 量 . 
(c) 如 果 jw 和 o? 都 未 知 , 则 q(X) = (号 Xi, | 了 ) 是 (1,o?) 的 充分 统计 量 . 

解 ” 利 用 例 9.4 的 计算 和 因子 分 解 准则 . 
14.*” 拉 奥 一 布莱克 韦 尔 定理 . 这 个 问题 是 的 要 义 是 : 一 个 一 般 的 估计 量 , 可 以 改进 为 只 依赖 于 
充分 统计 量 的 估计 量 . 设 给 定 观 测 X = (Xi,… ,Xn), T = qd(X) 是 参数 9 的 充分 统计 
量 , g(X) 是 9 的 一 个 估计 量 . 
(a) 证 明 Eolg(X)|T] 对 所 有 9 都 一 样 . 因此 可 以 去 掉 下 标 0, 将 


9(X) = Elg(X)IT] 


计量 ， 它 只 通过 7T 依赖 于 X. 


看 作 9 的 一 个 新 估 


心 
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(b) 证 明 估 计量 g(X) 和 5(X) 的 偏差 相等 . 
(c) 证 明 对 满足 varo(g(X)) < co 的 0， 


Eel(9(X) — 0)°] < Eol(g(X) — 0)°]. 


进一步 地 , 给 定 0, 此 不 等 式 是 严格 的 当 且 仅 当 


Eelvar(g(X)|T)] > 0， 


解 (a) 因为 了 = gq(X) 是 充分 统计 量 , 条 件 分 布 Po(X = zl7 = 如 不 依赖 于 9 
Eo[g(CX)IT] 也 不 依赖 于 0 
(b) 利用 条 件 期 望 的 性 质 


因而 


Eolg(X)] = Ee[El9(X)IT] = Eol9(X)], 


| 


J 知 9CX) 和 9(X) 的 偏差 相等 
(c) 对 固定 对 9, 将 g(X) 和 9(X) 的 偏差 记 为 bo. 根据 全 方差 定律 有 


Eol(g(X) — 0)*] =varo(g(X)) + 0 
=Eolvar(g(X)|T)] + varo (EIg(X)|T]) 十 局 


=Eolvar(g(X)|T)] + varo(9(X)) + 可 


=Eolvar(g(X)|T)] + Eo[(9(X) 一 9) 


> Bo[(5(X) — 0)"], 


且 不 等 式 是 严格 的 当 且 仅 当 Eo[var(g(X)|T)] > 0. 
15.” 设 大，,… ,X, 是 [0,0] 上 独立 同 分 布 的 均匀 分 布 随机 变量 . 
(a) 证 明了 = maxi-1,.…,n Xi 是 充分 统计 量 . 
(b) 证 明 9(X) = (2/n) 1 Xi 是 无 偏 估计 . 
(c) 找 出 估计 量 5(X) = Blg( 久 )| 了 T] 的 形式 , 计算 并 比较 Eo[(9(X) 一 0)?] 和 Eo[(g(X) 一 
0)2]. 
解 ” (a) 似 然 函 数 为 


fx(z1,°.: ,Tn;0)= fxi(T1;0).…: fx, (zn;0) 
1/0", 和 0 < maxi=1,... ,n Ti < 0< 1， 
0， ”其 他 ， 


只 通过 g(x) = maxi=1 nm2i 依赖 于 xz. 根据 因子 分 解 准则 得 知 其 为 充分 统计 量 . 
(b) 有 
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(c) 


在 事件 { = 如 中 , 一 个 观测 X; 等 于 和 璋 下 的 n 一 1 个 观测 服从 区 间 [0, 相 上 的 
均匀 分 布 , 条 件 期 望 为 i/2. 这 样 ， 
全 ( 5 四 人 
Nn 2 Nn 
因此 9(X) = Elg(X)|T] = (n+ 1)T/n. 


下 面 来 计算 两 个 估计 量 9( 关 ) 和 9(X) 的 均 方 误差 . 为 此 要 计算 9( 关 ) 的 一 阶 
和 矩 和 二 阶 矩 . 有 


Elg(X)IT = 十 = 二 


Fol9(X)] = EolElg(X)IT)] = Eolg(X = 0. 


为 找 二 阶 矩 , 首先 确定 工 的 概率 密度 函数 . 对 te [0,0], 有 Po(T< 4)=(t/0)"”, 微 
分 得 fr(t;9) = nt”-1/0”. 因此 ， 


BolBCO 门 = (1) str (tt) 三 epr(Ggdl 


Nn 


_ /n+l1 2 _ (n+1)? 2 
=( n ) 人 
因为 5(X) 的 均值 是 9, 其 均 方 误差 和 方差 相等 , 且 


k 2 关 2 2 (+lD oo oa 1 2 
Bl(X) = 0 = Bl) = 攻 二 贡 人 一天 = 有 柯 信 


类 似 地 , g(X) 的 均 方 误差 也 和 其 方差 相等 , 即 


n 2 
Eo[(9(X) 一 二 六 Dware(X 人 7， Ce 02. 


Eol(9(X) — 0)°] < Eel(g(X) — 9) 站， 


符合 拉 奥 -布莱克 韦 尔 定理 . 


9.2 节 ”线性 回归 
16. 一 家 电力 公司 想 要 估计 消费 者 日 用 电量 和 夏天 每 日 温度 (华氏 温标 ) 之 间 的 关系 . 收集 数 
据 见 下 表 . 
温度 96 89 81 86 83 
电量 23.67 20.45 21.86 23.28 20.71 
温度 73 78 74 76 78 
用 电量 18.21 18.85 20.10 18.48 17.94 
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(a) 建立 可 用 来 预测 用 电量 (温度 的 函数 ) 的 线性 回归 模型 并 估计 参数 . 
(b) 若菜 天 温度 是 90 度 (华氏 度 ), 试 预测 当天 的 用 电量 . 
17. 下 表 给 出 5 个 数据 对 (zi, yi)， 


bg 0.798 2.546 5.005 7.261 9.131 


y 一 2.373 20.906 103.544 215.775 333.911 


想 对 z 和 yy 的 关系 建立 模型 . 考虑 线性 模型 


Yi = 00+ O07it Wi $= 1,... ,5, 


以 及 二 次 模型 


Y=Po+Br?+V, i=1,...,5, 

其 中 Wi 和 Vi 是 附加 噪声 项 , 视 为 独立 零 均 值 正 态 随机 变量 , 方差 分 别 为 o? 和 o3. 
(a) 找 出 线性 模型 参数 的 最 大 似 然 估 计 . 
(b) 找 出 三 次 模型 参数 的 最 大 似 然 估 计 . 
(c) 假设 这 两 个 模型 为 正确 模型 的 概率 是 一 样 的 , 噪声 项 Wi; 和 Vi 的 方差 也 一 样 : o? = 

02. 用 最 大 后 验 概率 准则 从 两 个 模型 中 做 出 选择 . 
线性 回归 中 的 无 偏 性 和 相合 性 . 考虑 概率 范畴 下 的 回归 , 假设 = 0 二 0zi 十 Ti i 二 
1,… ,n, 其 中 Wi 是 独立 同 分 布 的 零 均 值 正 态 随 机 变量 , 方差 为 c2. 给 定 zx; 和 7 的 实 
际 值 yi;, i = 1,… ,n, 0 和 0 的 最 大 似 然 估计 由 9.2 节 中 的 线性 回归 公式 给 出 . 
(a) 证 明 go 和 01 的 最 大 似 然 估计 是 无 偏 的 . 
(b) 证 明 估 计量 6u 和 61 的 方差 分 别 是 


% 


18. 


x o? a 2 全 7 
var(9o) < ny (zi Fs z)2 var(91) 和 二 更 )2 7 
它们 的 协 方差 是 
Xe 2 元 


cov(9o,91) = 


(c) 证 明 若 并 (zi 一 下 2 一 co 且 卉 在 n 一 oo 时 被 一 个 常数 控制 , 则 有 var(68o) 一 0 
和 var(@1) 一 0. ( 据 此 以 及 切 比 雪夫 不 等 式 可 知 , Go。 和 1 都 是 相合 的 .) 
注意 : 尽管 在 本 题 中 假定 Wi 是 正 态 的 (在 求 最 大 似 然 估 计量 时 要 用 到 Wi 的 分 布 ), 但 
是 后 面 的 论证 说 明 即 使 没有 这 个 假设 , 估计 量 仍然 是 无 偏 且 相 合 的 . 

解 (a) 将 0 和 91 的 真实 值 分 别 记 为 外 和 07. 已 知 
Qi = i 2 Qo0 =Y — O17, 


其 中 站 == (5j717)/n, 并 将 z1,… ,zn 看 作 常 数 . 记 玉 = (3D Wi)/n, 则 有 


ee a 


以 及 


YY=0(r— 2)+ (WW). 


因此 
O, — i BN (r BD) + Wi —W) p+ i BW: —W) 
- Ti (Te — 3B) Sn 
1 一 而 2 
这 里 用 到 事实 六 ” (zi; 一 二 = 0. 由 于 E[Wi] = 0, 我 们 得 到 
E[OQ1] = 多 
同样 
Oo0=Y- Oz=W+07T+W-Oz=N+(0 -Oi+W, 


和 事实 E[61] = 07 以 及 E[W] = 0 得 到 


因此 估计 量 6。 和 61 是 无 偏 的 . 
现在 来 计算 两 个 估计 量 的 方差 .利用 (a) 中 推导 关于 i 的 公式 和 Wi 的 独立 性 ， 


本 本 


(b 


— 


六 元)2>var(TT) 加 a2 
A 


类 似 的 用 (a) 中 推导 关于 6o 的 公式 有 


var(Q0) = var(W — O17) = var(W) + x2var(O1) — 2zcov(W, O1). 


于 Di(zi 一 3) 二 0 以 及 EIWWi]=o?/n 对 所 有 i 成 立 , 于 是 得 到 


部 


2 ia1(25 — 1)2 2 1(25 — 1)2 


组 合 最 后 三 个 等 式 , 得 到 


2 2 2 2 en 二 2 二 2 
ka a i 
var(o0) = var(W )+7z var(O1) rE re 到 (和 二 


二 项 展开 (zi - 5)? 得 到 


组 合 前 面 两 个 等 式 , 得 到 


最 后 来 计算 6o 和 1 的 协 方差 . 有 


cov(O0, O01) = E[(O0 — 0)(O1 — 07)] = E[((0: ~ ©1)z + WW)(O1 — 01]， 


440 第 9 章 经 典 统计 推断 


) = —ivar(O1) + cov(W, O1). 


cov (Oo0, A1 
> 前 说 过 cov( 玩 ,9;) = 0, 最 终 得 到 


DL 


六 A 元 02 


cov(9o, 91) yp Fy 
i=1(Ti 


(c) 若 ?i(zxi 一 )? 一 co, 由 (b) 中 推导 的 表达 式 可 知 var(©1) 一 0. 进一步 由 (b) 
中 公式 


var(Q0) = var(W) + z2var(©O1), 
以 及 假设 z? 被 一 常数 控制 可 知 var(6o) 一 0. 
19.” 线性 回归 中 的 方差 估计 . 在 和 18 题 相 同 的 假设 条 件 下 , 证 明 


总 = DY 00- O17:) 


n—2 


五 


i=1 
是 o? 的 无 偏 估计 量 . 
解 令 信 = D1(¥ — Qo 一 izi)”. 用 公式 6o = 了 一 iz 和 1 的 表达 式 得 到 


i d= 
= yY?— ny?— ©? >》 (zi 一 五)” 
i= i=1 
两 边 取 期 望 得 到 
El] = > EIY?] — nB[Y™] — > (x; — 2)°BIO1. 
i=l1 $ 三 1 


同时 有 


E[Y?] = var(Y;) + (E[Yi])? = 0 + (0 + 01 xi), 

ElY?”] = var(?) + (BE[F])? = $+ (0 + 012)’, 

EIO?] = var(O1) + (E[O1])? = ya Ga + (0)”. 
组 合 4 个 等 式 并 化 简 , 得 到 


E[W,] = (n — 2)07. 


9.3 节 ”简单 假设 检验 
20. 随机 变量 X 由 正 态 概 率 密 度 函 数 刻画 , 均值 lo = 20, 方差 或 者 是 ci = 16( 假 设 Ho) 或 
是 of = 25( 假 设 万 ). 对 于 这 样 的 一 个 简单 假设 检验 问题 , 我 们 采用 拒绝 域 


R= {z|z1+t zr3 > 7}, 


其 中 y 是 待定 的 临界 值 . 设 错误 拒绝 概率 为 0.05, 相应 的 Y 等 于 多 少 ? 相应 错误 接受 的 

概率 是 多 少 ? 

21. 已 知 正 态 随机 变量 X 的 均值 为 60, 标准 差 为 5( 假 设 Zr) 或 8( 假 设 万 )， 
(a) 考虑 用 一 个 简单 样本 z 来 做 假设 检验 . 拒绝 域 的 形式 为 


R= {zllz — 60| >7}. 


在 错误 拒绝 Ho 的 概率 为 0.1 的 情况 下 确定 y 的 取 值 . 相应 错误 接受 的 概率 是 多 
少 ? 如 果 以 同样 的 错误 拒绝 概率 , 用 似 然 比 检验 会 改变 拒绝 域 吗 ? 
(b) 考虑 用 nn 个 样本 zi1,… ,zn 来 做 假设 检验 . 拒绝 域 的 形式 为 


R= {e on) — 60| > 人 让， 

其 中 7 使 得 错误 拒绝 Ho 概率 为 0.1. 错误 接受 的 概率 随 着 n 的 改变 如 何 变化 ? 就 
这 种 检验 的 恰当 之 处 做 个 总 结 . 
(c) 用 个 观察 值 z1,:… ,zn 来 推导 似 然 比 检验 的 构成 . 

22. 有 两 个 关于 给 定 人 硬币 正面 向 上 概率 的 假设 : 9 = 0.5( 假 设 Ho) 和 0 = 0.6( 假 设 历 ). 设 
X 是 n 次 投掷 中 正面 朝 上 的 次 数 , 当 n 足够 大 时 , X 的 分 布 可 以 合理 近似 为 正 态 分 布 . 
对 于 这 样 的 简单 假设 检验 问题 , 知 X 大 于 某 个 合适 的 选择 值 6 则 拒绝 Ho. 

(a) 当 错 误 拒 绝 的 概率 小 于 或 等 于 0.05 时 , kn 的 取 值 应 该 是 多 少 

(b) 为 保证 错误 拒绝 和 错误 接受 的 概率 都 不 超过 0.05, n 的 最 小 值 是 多 少 ? 

(c) 当 n 取 (6b) 中 的 值 , 以 相同 的 错误 拒绝 概率 做 似 然 比 检验 , 此 时 错误 接受 的 概率 是 
多 少 ? 

23. 票务 公司 一 天 内 接 到 电话 的 总 数 服 从 泊 松 分 布 . 平 ,电话 数 的 期 望 值 是 Xo; 城 里 有 
热门 演出 的 一 天 , 电话 数 的 期 望 为 Xi, 且 Xi > Xo. 描述 根据 电话 总 数 判 断 城 里 是 否 有 热 
门 演出 的 似 然 比 检验 . 假设 给 定 了 错误 拒绝 的 概率 , 写 出 临界 值 € 的 表达 式 . 

24. 有 一 批 灯泡 , 其 寿命 为 独立 同 分 布 的 指数 分 布 随机 变量 , 参数 为 Xo( 假 设 Ho) 或 Xi( 假 设 
且 ). 对 于 这 个 假设 检验 问题 , 测量 ”个 灯泡 的 寿命 值 . 求 出 相应 的 似 然 比 检验 的 拒绝 域 . 
假设 错误 拒绝 Ho 的 概率 给 定 , 写 出 临界 值 的 解析 表达 式 . 

9.4 节 显著 性 检验 

25. 设 X 是 均值 为 方差 为 1 的 正 态 随机 变量 . 现在 想 利用 X 的 wn 个 独立 观察 值 , 在 5% 
显著 水 平 下 检验 假设 j= 5. 

(a) 样本 均值 在 什么 范围 内 就 接受 假设 ? 
(b) 令 n= 10. 计算 在 jy 的 真实 值 是 4 的 情况 下 接受 y= 5 的 概率 . 


~ 
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26. 从 未 知 均值 上 和 方差 o? 的 正 态 分布 中 抽取 五 个 独立 观察 值 . 
(a) 若 样本 值 为 8.47、10.91、10.87、9.46、10.40, 估计 jw 和 o?. 
(b) 利用 (a) 中 的 估计 和 t 分 布 表 , 在 95% 显著 水 平 下 检验 假设 4 = 9. 
27. 两 个 岛 上 生长 了 同一 种 植物 . 假设 植物 在 第 一 个 (或 第 三 个 ) 岛 上 的 寿命 ( 按 天 计算 ) 服 
从 未 知 均值 jx (或 uy) 和 方差 o% = 32( 或 o = 29) 正 态 分 布 . 现在 从 每 个 岛 上 获得 
10 个 独立 观察 值 , 我 们 想 检 验 假设 wx = jy. 相应 样本 均值 是 元 = 181 和 = 177. 问 
数据 在 95% 显著 性 水 平 下 支持 假设 吗 ? 
28. 一 家 公司 在 考虑 购买 一 台 制 造 某 种 零件 的 机 器 . 测试 时 , 机 器 制造 的 600 个 零件 中 28 个 
有 缺陷 . 问 数据 是 否 在 95% 显著 水 平 下 支持 假设 “机 器 的 缺陷 率 小 于 3%”? 
29. 设 泊 松 随机 变量 的 五 个 独立 观察 值 为 : 34、35、29、31、30. 在 5% 显著 水 平 下 检验 均值 
是 否 等 于 35. 
30. 一 台 监 视 器 周期 性 地 检查 某 个 特定 区 域 , 并 根据 是 否 有 入 侵 者 记录 信号 , X = W 为 没有 
入 侵 者 (此 为 原 假设 Ho), X = 0 十 W 为 存在 入 侵 者 , 其 中 0 非 负 未 知 . 假设 W 是 零 均 
值 、 方差 v = 0.5 的 正 态 随机 变量 . 
(a) 得 到 一 个 观测 值 X = 0.96. 在 5% 显著 水 平 下 是 否 拒绝 Ho? 


I 


(b) 得 到 五 个 观测 值 X = 0.96、 一 0.34、0.85、0.51、 一 0.24. 在 5% 显著 水 平 下 是 否 拒 
绝 Ho? 
(c) 重复 (b), 用 t 分 布 , 并 假设 方差 v 未 知 . 
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几 个 特殊 离散 随机 变量 的 小 结 
在 [a,0] 上 的 均匀 分 布 : 


EIX] = a 二 0 2 


参数 为 p 的 伯 努 利 分 布 : 刻画 单个 试验 的 成 功 或 失败 . 


P， 若 天 一 1 
px(k) = 


1 工 一 D， 车 ==0， 


esa(es(b—atl) 1) 
(5—a+1)(es —1) 


Mx(s) 一 


EIX] =p, var(X)=p(1—p), Mx(s)=1-p+pe’. 
参数 为 p 和 n 的 二 项 分 布 : 刻画 n 个 独立 的 伯 努 利 试验 中 的 成 功 数 


?0 -Dh 太一 0,1 ) 7 


Elz]=np, var(X)=np(1—p), Mx(s)= (1—p+pe’)". 


参数 为 的 几何 分 布 : 刻画 在 一 列 独立 的 伯 努 利 试验 中 直到 出 现 第 一 次 成 功 前 
的 试验 数 ， 


px(k) = (1 一 中 7， k= 1,2,..,， 


1—p 
p2 


BIX] -> var(X)= Mx(s) = 


1 
参数 为 和 的 泊 松 分 布 : 当 n 很 大 、p 很 小 时 近似 为 二 项 分 布 , 且 有 入 = np. 


A 
= e 一 入 


px(k) = kl k= 0,1,...,， 


E[X]=A, var(X)=M, Mx(s) =e**-). 
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几 个 特殊 的 连续 随机 变量 的 小 结 
在 [中 上 的 连续 均匀 分 布 : 


0， 其 他 ， 
a 一 2 sb __ asa 
EIX] = eo a A ee 
参数 为 和 的 指数 分 布 : 
Xe-Xz， 若 zy>0， 1 一 erxz， 若 zy>0， 
太 xx(z) 一 Fx(7) = 
0， 其 他 ， 0， 其 他 ， 
Elz] = >， var(X) = 总 ， Mx(z) = > ,(s < 入 ). 


参数 为 J 和 o? > 0 的 正 态 分 布 : 


1 ye 
fx(7) = Be 2 ) 


BEIX] =1, var(X)=0?, MXx(s) el /ts. 
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标准 正 态 分 布 表 


0.00 0.01 0.02 0.03. 0.04 0.05 0.06 0.07 0.08 0.09 


0.0 0.5000 0.5040 0.5080 0.5120 0.5160 0.5199 0.5239 0.5279 0.5319 0.5359 
0.1 0.5398 0.5438 0.5478 0.5517 0.5557 0.5596 0.5636 0.5675 0.5714 0.5753 
0.2 0.5793 0.5832 0.5871 0.5910 0.5948 0.5987 0.6026 0.6064 0.6103 0.6141 
0.3 0.6179 0.6217 0.6255 0.6293 0.6331 0.6368 0.6406 0.6443 0.6480 0.6517 
0.4 0.6554 0.6591 0.6628 0.6664 0.6700 0.6736 0.6772 0.6805 0.6844 0.6879 


0.5 0.6915 0.6950 0.6985 0.7019 0.7054 0.7088 0.7123 0.7157 0.7190 0.7224 
0.6 0.7257 0.7291 0.7324 0.7357 0.7389 0.7422 0.7454 0.7486 0.7517 0.7549 
0.7 0.7580 0.7611 0.7642 0.7673 0.7704 0.7734 0.7764 0.7794 0.7823 0.7852 
0.8 0.7881 0.7910 0.7939 0.7967 0.7995 0.8023 0.8051 0.8078 0.8106 0.8133 
0.9 0.8159 0.8186 0.8212 0.8238 0.8264 0.8289 0.8315 0.8340 0.8365 0.8389 


1.0 0.8413 0.8438 0.8461 0.8485 0.8508 0.8531 0.8554 0.8577 0.8599 0.8621 
1.1 0.8643 0.8665 0.8686 0.8708 0.8729 0.8749 0.8770 0.8790 0.8810 0.8830 
1.2 0.8849 0.8869 0.8888 0.8907 0.8925 0.8944 0.8962 0.8980 0.8997 0.9015 
1.3 0.9032 0.9049 0.9066 0.9082 0.9099 0.9115 0.9131 0.9147 0.9162 0.9177 
1.4 0.9192 0.9207 0.9222 0.9236 0.9251 0.9265 0.9279 0.9292 0.9306 0.9319 


1.5 0.9332 0.9345 0.9357 0.9370 0.9382 0.9394 0.9406 0.9418 0.9429 0.9441 
1.6 0.9452 0.9463 0.9474 0.9484 0.9495 0.9505 0.9515 0.9525 0.9535 0.9545 
1.7 0.9554 0.9564 0.9573 0.9582 0.9591 0.9599 0.9608 0.9616 0.9625 0.9633 
1.8 0.9641 0.9649 0.9656 0.9664 0.9671 0.9678 0.9686 0.9693 0.9699 0.9706 
1.9 0.9713 0.9719 0.9726 0.9732 0.9738 0.9744 0.9750 0.9756 0.9761 0.9767 


2.0 0.9772 0.9778 0.9783 0.9788 0.9793 0.9798 0.9803 0.9808 0.9812 0.9817 
2.1 0.9821 0.9826 0.9830 0.9834 0.9838 0.9842 0.9846 0.9850 0.9854 0.9857 
2.2 0.9861 0.9864 0.9868 0.9871 0.9875 0.9878 0.9881 0.9884 0.9887 0.9890 
2.3 0.9893 0.9896 0.9898 0.9901 0.9904 0.9906 0.9909 0.9911 0.9913 0.9916 
2.4 0.9918 0.9920 0.9922 0.9925 0.9927 0.9929 0.9931 0.9932 0.9934 0.9936 


2.5 0.9938 0.9940 0.9941 0.9943 0.9945 0.9946 0.9948 0.9949 0.9951 0.9952 
2.6 0.9953 0.9955 0.9956 0.9957 0.9959 0.9960 0.9961 0.9962 0.9963 0.9964 
2.7 0.9965 0.9966 0.9967 0.9968 0.9969 0.9970 0.9971 0.9972 0.9973 0.9974 
2.8 0.9974 0.9975 0.9976 0.9977 0.9977 0.9978 0.9979 0.9979 0.9980 0.9981 
2.9 0.9981 0.9982 0.9982 0.9983 0.9984 0.9984 0.9985 0.9985 0.9986 0.9986 


3.0 0.9987 0.9987 0.9987 0.9988 0.9988 0.9989 0.9989 0.9989 0.9990 0.9990 
3.1 0.9990 0.9991 0.9991 0.9991 0.9992 0.9992 0.9992 0.9992 0.9993 0.9993 
3.2 0.9993 0.9993 0.9994 0.9994 0.9994 0.9994 0.9994 0.9995 0.9995 0.9995 
3.3 0.9995 0.9995 0.9995 0.9996 0.9996 0.9996 0.9996 0.9996 0.9996 0.9997 
3.4 0.9997 0.9997 0.9997 0.9997 0.9997 0.9997 0.9997 0.9997 0.9997 0.9998 


注 : 表 中 的 项 提供 了 B(y) = P(Y < y) 的 值 , 其 中 了 是 标准 正 态 随机 变量 , 0 < y < 3.49. 例如 要 
查找 B(1.71) 的 值 , 我 们 只 需 在 1.7 这 一 行 中 找 与 0.01 对 应 那 一 列 的 数值 . 故 更 (1.71) = 0.9564. 
当 y 为 负 值 的 时 候 , 可 利用 公式 B(g) = 1 一 B(-y) 计算 B(y) 的 值 
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